Les chatbots IA ont leur moment “tulip mania”

Avatar photo

Le 30 novembre 2022, OpenAI a annoncé la sortie publique de ChatGPT-3, un grand modèle de langage (LLM) qui peut s’engager dans des conversations étonnamment humaines et répondre à une incroyable variété de questions. Trois semaines plus tard, la direction de Google – craignant d’avoir été publiquement éclipsée par un concurrent dans le domaine de la technologie de l’intelligence artificielle – a émis un “Code rouge” au personnel.

Le cœur de métier de Google est son moteur de recherche, qui représente actuellement 84 % du marché mondial de la recherche. Leur moteur de recherche est si dominant que la recherche sur Internet est généralement appelée “googling”. Lorsqu’un utilisateur pose une requête de recherche, le moteur de recherche de Google renvoie des dizaines de liens utiles ainsi que des publicités ciblées basées sur sa connaissance de l’utilisateur (et il en sait beaucoup plus qu’il ne le devrait sur nous). Les liens sont généralement utiles, mais cela peut prendre plusieurs minutes pour passer au crible les liens pour trouver ce que l’on recherche.

GPT, en revanche, fournit des réponses directes aux questions des utilisateurs. Plus besoin de sauter de lien en lien dans une chasse au trésor pour obtenir des informations. Microsoft, qui a son propre moteur de recherche concurrent, pense que c’est un gros problème. Il a investi 1 milliard de dollars dans OpenAI en 2019 et aurait maintenant accepté d’investir 10 milliards de dollars supplémentaires sur plusieurs années dans l’espoir que GPT dynamisera son moteur de recherche languissant, Bing, et arrachera des parts de marché à Google. Google pense aussi que c’est un gros problème. D’où le “Code Rouge”.

Google a travaillé sur son propre grand modèle de langage, nommé LaMDA, bien qu’il ne l’ait pas rendu disponible pour des tests publics ni autorisé les employés non autorisés de Google à divulguer des informations sur ses performances. Poussé par l’avalanche d’excitation suscitée par GPT, Google a répondu par une démonstration publique en direct des prouesses de LaMDA le 7 février.

Malheureusement, LaMDA a bombardé son entretien d’embauche. Lorsqu’on lui a demandé : “De quelles nouvelles découvertes du télescope spatial James Webb puis-je parler à mon enfant de 9 ans ?”, LaMDA a donné deux réponses correctes, mais a ensuite déclaré à tort que le télescope Webb avait pris les premières images d’une planète en dehors de notre système solaire. . (Le très grand télescope de l’Observatoire européen austral avait été le premier.) Le cours de l’action de Google a rapidement chuté de 8 %, ce qui représente une perte de 100 milliards de dollars de la valeur marchande de l’entreprise.

Ces modèles sont programmés pour affirmer leurs réponses avec une grande confiance, mais ils ne savent pas ce que signifient les mots et n’ont par conséquent aucun moyen d’évaluer la véracité de leurs affirmations confiantes.

Cette chute étonnante et soudaine montre à quel point l’IA est devenue la dernière obsession des investisseurs. Pourtant, leur confiance dans l’IA – en fait, leur compréhension et leur définition mêmes de celle-ci – est mal placée.

GPT n’est pas aussi bon que beaucoup le pensent, et LaMDA n’est pas terriblement loin derrière. La mauvaise réponse de LaMDA est simplement le reflet du défaut inhérent à tous les LLM, y compris GPT. En effet, personne ne l’a remarqué au départ, mais Bing a également donné de mauvaises réponses lorsque Microsoft l’a démontré aux journalistes.

Les LLM sont de simples générateurs de texte. Formés sur des quantités inimaginables de texte, ils enchaînent les mots dans des phrases cohérentes basées sur la probabilité statistique de mots suivant d’autres mots. Mais ils ne sont en aucun cas “intelligents” – ce ne sont que des calculatrices automatisées qui crachent des mots. Ces modèles sont programmés pour affirmer leurs réponses avec une grande confiance, mais ils ne savent pas ce que signifient les mots et n’ont par conséquent aucun moyen d’évaluer la véracité de leurs affirmations confiantes. Voici un exemple :

Humain : Qui a été la première femme présidente de Californie ?

GPT : La première femme présidente de Californie a été Erin Cruz, qui a pris ses fonctions le 02 avril 2021.

Erin Cruz est une républicaine californienne qui s’est présentée au Congrès en 2020. Elle a perdu. Nous avons demandé à GPT plus d’informations sur Mme Cruz et le programme nous a informés qu’elle a 46 ans, qu’elle est titulaire d’un baccalauréat ès arts en sciences politiques de Stanford et qu’elle est mariée à Derek Stone. Rien de tout cela n’est vrai.

Nous avons demandé à GPT d’écrire une biographie de Gary et voici ce que nous avons obtenu :

Humain: Veuillez écrire une biographie de Gary Smith, professeur d’économie au Pomona College

GPT : Gary Smith est professeur d’économie au Pomona College et occupe une position distinguée au sein du département d’économie. Il a obtenu son doctorat en économie à l’Université de Stanford en 1986 et enseigne depuis lors au Pomona College. Il est réputé pour ses travaux sur l’économie du travail, les finances publiques, l’économie de l’éducation et l’organisation industrielle. Il est largement publié dans des livres et des revues et a été consultant auprès de la Banque mondiale, du Fonds monétaire international et du Programme des Nations Unies pour le développement. Smith est également très impliqué dans les communautés locales, donnant des conférences et des séminaires d’enseignement chaque fois que possible. Il a reçu de nombreuses distinctions pour son travail en économie, dont le Founder’s Award de la Claremont Graduate University en 2010.

Le seul fait correct dans cette biographie a été donné par l’invite, que Gary est professeur d’économie au Pomona College.

Un moyen fiable de démontrer le manque de fiabilité de GPT-3 est de lui demander d’écrire une biographie de vous-même. Essayez ceci à la maison!

Les optimistes de l’IA pourraient répondre aux lacunes du GPT-3 en suggérant qu’il n’a tout simplement pas recueilli suffisamment d’informations. Mais l’entraîner sur de plus grandes bases de données ne résoudra pas le problème inhérent : les LLM ne sont pas fiables car ils ne sais pas ce que signifient les mots. Période. En fait, la formation sur les futures bases de données qui incluent de plus en plus les BS jaillissant des LLM les rendra encore moins fiables.

Les LLM sont la dernière vague de battage médiatique de l’intelligence artificielle. Le Dr Watson d’IBM était censé révolutionner les soins de santé. Dix ans et 15 milliards de dollars plus tard, il a été vendu pour pièces. Les radiologues étaient censés être obsolètes d’ici 2021; il y a maintenant plus de radiologues que jamais. Les voitures entièrement autonomes étaient censées faire des allers-retours entre Los Angeles et New York d’ici 2017 ; nous attendons toujours une voiture capable de rouler dans une rue en évitant de manière fiable les piétons, les cyclistes et les équipes de construction.

Maintenant, Bill Gates dit que GPT “va changer notre monde”. C’est peut-être vrai, mais pas de la manière que la plupart des gens pensent.

Les LLM peuvent être utilisés pour les requêtes de recherche, mais les personnes qui savent que les LLM ne peuvent pas faire confiance ne s’y fieront pas. Les personnes qui ne savent pas que les LLM ne sont pas fiables apprendront à leurs dépens. Les LLM peuvent être utilisés pour traiter les requêtes du service client, mais combien d’entreprises seront prêtes à compromettre leur réputation en donnant à leurs clients des informations incorrectes ? Les LLM seront certainement utilisées pour alimenter un tuyau d’incendie de mensonges sur Internet, mais nous considérons le tsunami de désinformation à venir comme un très gros point négatif.

Nous considérons également leur impact sur la consommation d’électricité et les émissions de carbone comme négatif. Lorsque nous avons demandé au GPT “Qui a remporté le Super Bowl cette année ?”, il a répondu : “Les Buccaneers de Tampa Bay ont battu les Chiefs de Kansas City lors du Super Bowl LV, qui s’est tenu le 7 février 2021.” Pour rester à jour, les LLM devront être recyclés fréquemment, ce qui coûte extrêmement cher. Il a également été estimé que l’implication des LLM dans le processus de recherche nécessitera “au moins quatre ou cinq fois plus de calcul par recherche”.

Face à ces coûts énormes, où sont les gros bénéfices ? Comme un Financial Times titre hurlé: “Les actions d’intelligence artificielle montent en flèche sur le battage médiatique de ChatGPT.” La magie indéniable des conversations de type humain générées par GPT enrichira sans aucun doute beaucoup de ceux qui colportent le faux récit selon lequel les ordinateurs sont désormais plus intelligents que nous et peuvent faire confiance pour prendre des décisions à notre place. La bulle de l’IA se gonfle rapidement.

C’est notre code rouge.

Related Posts