“Hé, Alexa ! Es-tu digne de confiance ?” – Des comportements sociaux semblables à ceux des humains améliorent la confiance dans les assistants numériques

Avatar photo
Voice-User Interfaces Trust
Confiance dans les interfaces voix-utilisateur

Une nouvelle étude du MIT pourrait aider les concepteurs à créer des interfaces vocales plus attrayantes et plus susceptibles d’être utilisées par les membres d’une famille à la maison, tout en améliorant la transparence de ces appareils. Crédit : Photo reproduite avec l’aimable autorisation des chercheurs ; éditée par MIT News.

Plus une interface utilisateur vocale présente de comportements sociaux, plus les gens sont susceptibles de lui faire confiance, de s’engager avec elle et de la considérer comme compétente.

Une famille se réunit autour de son îlot de cuisine pour déballer l’assistant numérique qu’elle vient d’acheter. Selon une nouvelle étude menée par des chercheurs de l’Université de Californie du Sud, les gens seront plus enclins à faire confiance à cette nouvelle interface vocale, qui peut être une enceinte intelligente comme Alexa d’Amazon ou un robot social comme Jibo, si elle présente des comportements sociaux semblables à ceux des humains. MITMedia Lab du MIT.

Les chercheurs ont constaté que les membres de la famille ont tendance à penser qu’un appareil est plus compétent et plus engageant sur le plan émotionnel s’il peut montrer des signes sociaux, comme le fait de bouger pour orienter son regard vers une personne qui parle. En outre, leur étude a révélé que l’image de marque – plus précisément, si le nom du fabricant est associé à l’appareil – a un effet significatif sur la façon dont les membres d’une famille perçoivent et interagissent avec différentes interfaces vocales.

Les chercheurs ont constaté que lorsqu’un appareil possède un niveau plus élevé d’incarnation sociale, comme la capacité de donner des signaux sociaux verbaux et non verbaux par le biais de mouvements ou d’expressions, les membres de la famille interagissent plus fréquemment les uns avec les autres lorsqu’ils utilisent l’appareil en tant que groupe.

Leurs résultats pourraient aider les concepteurs à créer des interfaces vocales plus attrayantes et plus susceptibles d’être utilisées par les membres d’une famille à la maison, tout en améliorant la transparence de ces appareils. Les chercheurs soulignent également les problèmes éthiques qui pourraient résulter de certains modèles de personnalité et d’incarnation.

“Ces dispositifs sont une nouvelle technologie qui arrive à la maison et ils sont encore très peu explorés”, explique Anastasia Ostrowski, assistante de recherche au sein du Personal Robotics Group du Media Lab, et auteur principal de l’article. “Les familles sont à la maison, donc nous étions très intéressés par l’examen de cette question selon une approche générationnelle, incluant les enfants et les grands-parents. Il était super intéressant pour nous de comprendre comment les gens les perçoivent, et comment les familles interagissent avec ces appareils ensemble.”

Les coauteurs sont Vasiliki Zygouras, récemment diplômée du Wellesley College et travaillant au sein du Personal Robotics Group au moment de cette recherche ; le chercheur Hae Won Park ; l’étudiante diplômée de l’université Cornell Jenny Fu ; et l’auteur principal Cynthia Breazeal, professeur d’arts et de sciences des médias, directrice du MIT RAISE et directrice du Personal Robotics Group, ainsi que développeuse du robot Jibo. L’article est publié le 17 janvier 2022 dans le magazine Frontiers in Robotics and AI.

Recherche d’interactions

Ce travail est issu d’une étude antérieure où les chercheurs ont exploré comment les gens utilisent les interfaces vocales à domicile. Au début de l’étude, les utilisateurs se sont familiarisés avec trois appareils avant d’en prendre un chez eux pendant un mois. Les chercheurs ont remarqué que les gens passaient plus de temps à interagir avec un robot social Jibo qu’avec les haut-parleurs intelligents, Amazon Alexa et Google Home. Ils se sont demandés pourquoi les gens s’engageaient davantage avec le robot social.

Pour en avoir le cœur net, ils ont conçu trois expériences dans lesquelles les membres d’une famille interagissaient en groupe avec différentes interfaces vocales. Trente-quatre familles, comprenant 92 personnes âgées de 4 à 69 ans, ont participé aux études.

Les expériences ont été conçues pour imiter la première rencontre d’une famille avec une interface vocale. Les familles ont été enregistrées sur vidéo alors qu’elles interagissaient avec trois appareils, en effectuant une liste de 24 actions (comme “demander la météo” ou “essayer de connaître les opinions de l’agent”). Elles ont ensuite répondu à des questions sur leur perception des appareils et ont catégorisé les personnalités des interfaces vocales.

Dans la première expérience, les participants ont interagi avec un robot Jibo, Amazon Echo et Google Home, sans aucune modification. La plupart ont trouvé que Jibo était beaucoup plus ouvert, fiable et sympathique. Parce que les utilisateurs ont perçu que Jibo avait une personnalité plus humaine, ils ont été plus enclins à interagir avec lui, explique Ostrowski.

Un résultat inattendu

Dans la deuxième expérience, les chercheurs ont cherché à comprendre comment l’image de marque affectait les perspectives des participants. Ils ont changé le “mot de réveil” (le mot que l’utilisateur prononce à haute voix pour activer l’appareil) de l’Amazon Echo en “Hey,Amazon !” au lieu de “Hey, Alexa !”, mais ont conservé le même “mot de réveil” pour le Google Home (“Hey, Google !”) et le robot Jibo (“Hey, Jibo !”). Ils ont également fourni aux participants des informations sur chaque fabricant. Lorsque l’image de marque a été prise en compte, les utilisateurs ont considéré Google comme plus digne de confiance qu’Amazon, malgré le fait que les appareils étaient très similaires en termes de conception et de fonctionnalité.

“Cela a également changé radicalement la façon dont les gens pensaient que l’appareil Amazon était compétent ou comme un compagnon”, explique Ostrowski. “Je ne m’attendais pas à ce qu’il y ait une telle différence entre la première et la deuxième étude. Nous n’avons modifié aucune des capacités, ni leur fonctionnement, ni leur réaction. Le simple fait qu’ils sachent que l’appareil est fabriqué par Amazon a fait une énorme différence dans leurs perceptions.”

Changer le “mot de réveil” d’un appareil peut avoir des implications éthiques. Un nom personnifié, qui peut donner à un appareil une apparence plus sociale, pourrait induire les utilisateurs en erreur en masquant le lien entre l’appareil et l’entreprise qui l’a fabriqué, qui est aussi l’entreprise qui a maintenant accès aux données de l’utilisateur, dit-elle.

Dans la troisième expérience, l’équipe a voulu voir comment le mouvement interpersonnel affectait les interactions. Par exemple, le robot Jibo tourne son regard vers la personne qui parle. Pour cette étude, les chercheurs ont utilisé le Jibo avec un Amazon Echo Show (un écran rectangulaire) avec le mot de réveil modifié “Hey, Computer”, et un Amazon Echo Spot (une sphère avec un écran circulaire) qui avait un drapeau rotatif sur le dessus qui s’accélère lorsque quelqu’un appelle son mot de réveil, “Hey, Alexa !”.

Les utilisateurs ont trouvé que l’Amazon Echo Spot modifié n’était pas plus engageant que l’Amazon Echo Show, ce qui suggère que le mouvement répétitif sans incarnation sociale peut ne pas être un moyen efficace d’augmenter l’engagement des utilisateurs, dit Ostrowski.

Favoriser des relations plus profondes

Une analyse plus approfondie de la troisième étude a également révélé que les utilisateurs interagissaient davantage entre eux, en se regardant les uns les autres, en riant ensemble ou en ayant des conversations secondaires, lorsque l’appareil avec lequel ils s’engageaient avait plus de capacités sociales.

“À la maison, nous nous sommes demandés comment ces systèmes favorisent l’engagement entre les utilisateurs. C’est toujours une grande préoccupation pour les gens : comment ces appareils vont-ils façonner les relations entre les gens ? Nous voulons concevoir des systèmes qui favorisent une relation plus épanouie entre les personnes”, explique M. Ostrowski.

Les chercheurs se sont servis de leurs observations pour formuler plusieurs considérations relatives à la conception de l’interface voix-utilisateur, notamment l’importance de développer des personnalités chaleureuses, extraverties et réfléchies, de comprendre comment le mot d’éveil influence l’acceptation de l’utilisateur et de transmettre des signaux sociaux non verbaux par le mouvement.

Forts de ces résultats, les chercheurs veulent continuer à explorer la manière dont les familles s’engagent dans des interfaces vocales présentant différents niveaux de fonctionnalité. Par exemple, ils pourraient mener une étude avec trois robots sociaux différents. Ils aimeraient également reproduire ces études dans un environnement réel et explorer quelles caractéristiques de conception sont les mieux adaptées à des interactions spécifiques.

Référence : “Speed Dating with Voice User Interfaces : Understanding How Families Interact and Perceive Voice User Interfaces in a Group Setting” par Anastasia K. Ostrowski, Jenny Fu, Vasiliki Zygouras, Hae Won Park et Cynthia Breazeal, 17 janvier 2022, Frontières de la robotique et de l’intelligence artificielle.
DOI : 10.3389/frobt.2021.730992

Cette recherche a été financée par le Media Lab Consortia.

Related Posts