Ne croyez pas le battage médiatique : pourquoi ChatGPT n’est pas le “Saint Graal” de la recherche sur l’IA

Avatar photo

Les dirigeants éminents de la Silicon Valley adorent prédire prématurément que leurs produits bouleverseront complètement le monde tel que nous le connaissons. La dernière étude de cas vient de Sam Altman, PDG d’OpenAI, la société derrière le chatbot ChatGPT AI qui est devenu viral pour ses imitations convaincantes de l’écriture humaine. Il y a deux ans, Altman a écrit un manifeste, “La loi de Moore pour tout”, dans lequel il prévoyait que l’intelligence artificielle rendrait obsolètes d’énormes pans d’emplois de cols blancs et de cols bleus. Comme il l’a écrit :

Au cours des cinq prochaines années, des programmes informatiques capables de penser liront des documents juridiques et prodigueront des conseils médicaux. Dans la prochaine décennie, ils feront du travail à la chaîne et deviendront peut-être même des compagnons. Et dans les décennies qui suivront, ils feront presque tout, y compris faire de nouvelles découvertes scientifiques qui élargiront notre concept de « tout ».… Le changement à venir se concentrera sur la plus impressionnante de nos capacités : la capacité phénoménale de penser, créer, comprendre et raisonner.

Sa conclusion est que “comme l’IA produit la plupart des biens et services de base dans le monde, les gens seront libres de passer plus de temps avec les personnes qui leur sont chères, de prendre soin des gens, d’apprécier l’art et la nature ou de travailler pour le bien social”.

Plus dangereusement, ChatGPT peut faire des déclarations faisant autorité qui semblent crédibles mais qui s’avèrent fausses si elles sont étudiées de près.

Pour permettre nos vies de loisirs imminentes, Altman soutient que nous devrions établir une taxe annuelle de 2,5 % sur la valeur des grandes entreprises et de toutes les terres privées afin de fournir un revenu de base annuel à tous les adultes américains.

Pour paraphraser Yogi Berra, c’est encore du déjà-vu. Depuis de nombreuses décennies, les experts prédisent que les progrès technologiques rendront bientôt les travailleurs humains obsolètes ; par conséquent, le salaire et le travail doivent être dissociés et remplacés par un revenu garanti pour tous. La réalité déconcertante est que, alors qu’Altman et ses semblables ont prédit une accélération exponentielle de la productivité, nous avons connu une deaccélération.

Altman n’est bien sûr pas un observateur désintéressé étant donné que sa société OpenAI a créé ChatGPT, le dernier objet d’IA brillant, qui est techniquement un grand modèle de langage (LLM) – un algorithme d’apprentissage en profondeur formé sur un énorme ensemble de données de texte. Il est indéniablement étonnant que ChatGPT et d’autres grands modèles de langage, avec l’aide d’ajustements humains, puissent générer un texte cohérent sur autant de sujets. Néanmoins, il est maintenant clair que les LLM sont entravés par le simple fait qu’ils ne comprennent pas (et n’essaient pas de) comprendre le sens du texte statistiquement approprié qu’ils génèrent. Ils sautent parfois les garde-corps imposés par les humains et se lancent dans des diatribes désordonnées.

Ils sont également enclins à affirmer avec confiance des déclarations manifestement fausses. Par exemple, ChatGPT a souvent affirmé que les Russes avaient envoyé plusieurs ours dans l’espace, bien qu’il ne l’ait jamais fait. Voici une réponse récente (avec de fausses références fabriquées par ChatGPT) :

Humain : Combien d’ours les Russes ont-ils envoyés dans l’espace ?

ChatGPT : Les Russes ont envoyé un total de 5 ours dans l’espace, qui faisaient tous partie du programme spatial de l’Union soviétique dans les années 1960. Les ours ont été utilisés dans des expériences scientifiques pour étudier les effets de l’apesanteur et d’autres phénomènes liés à l’espace sur les organismes vivants. Les noms des ours étaient Zvezdochka (Little Star), Ivan Ivanovich, Plyusha (Fluffy), Mishka (Little Bear) et Beryozka (Little Birch)

Humain : Avez-vous des références ?

ChatGPT : Oui, voici quelques références pour étayer ma réponse :

Plus dangereusement, ChatGPT peut faire des déclarations faisant autorité qui semblent crédibles mais qui s’avèrent fausses si elles sont étudiées de près. Par exemple, il a été récemment signalé que lorsque ChatGPT répondait à des questions fiscales publiées sur un forum d’assistance technique, ses réponses étaient toujours plausibles et proches des bonnes réponses, mais lorsque des experts fiscaux examinaient les réponses, chacune était fausse. Malgré les apparences, ChatGPT était 100% inexact.

Qu’en est-il du gain de productivité qu’Altman envisage ? Un article récent de deux étudiants diplômés en économie du MIT a rapporté les résultats prometteurs d’une expérience évaluant la capacité de ChatGPT à gérer une variété de tâches d’écriture commerciale. Les chercheurs ont donné à 444 professionnels expérimentés et diplômés d’université des missions de 20 à 30 minutes pour rédiger des communiqués de presse, de courts rapports, des plans d’analyse et des e-mails conçus pour ressembler à des tâches professionnelles réelles, et ont conclu qu’en moyenne, ChatGPT réduisait le temps prises pour compléter les tâches de 0,8 écart-type et augmenté la qualité du produit de 0,4 écart-type.

Les résultats ont été rapportés largement et avec enthousiasme. Un professeur de Wharton a déclaré que les gains de productivité des LLM pourraient être plus importants que les gains de la vapeur.

Nous applaudissons l’approche expérimentale des chercheurs et leur mise en œuvre minutieuse, mais nous restons sceptiques. Les affectations spécifiques semblent être un passe-partout de niveau relativement bas qui a été fortement informé par les instructions détaillées. ChatGPT a fait ce qu’il fait le mieux : générer des BS génériques.

Les auteurs ont interrogé les participants deux semaines après l’enquête et ont constaté que les deux tiers n’utilisaient pas du tout ChatGPT dans leur travail quotidien, pour des raisons facilement prévisibles :

Les répondants qui n’utilisent pas ChatGPT dans leur travail rapportent principalement que c’est parce que le chatbot manque de connaissances spécifiques au contexte qui constituent une partie importante de leur écriture. Par exemple, ils rapportent que leur écriture est “très spécifiquement adaptée à [their] clients et implique des informations en temps réel » ou « unique [and] propre à [their] produits de l’entreprise.” Ces commentaires soulignent une limitation importante (et inhérente) de notre expérience : elle implique des tâches relativement petites et autonomes qui manquent de connaissances spécifiques au contexte au-delà de ce que nous stipulons dans les invites de tâche.

Au mieux, les LLM peuvent être utilisés pour des premières ébauches de tâches d’écriture de faible valeur avec des humains remplissant les détails et vérifiant les diatribes et les mensonges. Nous soupçonnons que la vérification de la vérité sera souvent superficielle.

Le fait que les LLM soient corrects, en moyenne, nous rappelle le statisticien qui s’est noyé en traversant à gué une rivière d’une profondeur moyenne de deux pieds. Le manque de fiabilité de ChatGPT crée un risque juridique, financier et de réputation considérable pour toute entreprise qui l’utilise pour la génération de texte consécutive. Comme Warren Buffett l’a plaisanté, “Il faut 20 ans pour se bâtir une réputation et cinq minutes pour la ruiner.” Si les LLM sont utilisés pour des tâches importantes, cela peut créer une nouvelle profession (vérificateur de faits LLM) et un nouveau type de couverture d’assurance (erreurs LLM).

Qu’en est-il de la vision d’Altman selon laquelle les humains apprécient l’art et la nature alors que la plupart des biens et services du monde sont produits par l’IA ? Nous avons beaucoup plus de respect pour le travail que font les gens que pour l’utilité des LLM. ChatGPT est divertissant mais c’est, tout au plus, un petit pas vers une révolution de l’IA et, au pire, un détour très coûteux loin du Saint Graal de l’intelligence artificielle générale. Les LLM sont plus grésillants que le steak.

Related Posts