ChatGPT et ses semblables sont toujours de “faux” renseignements

Avatar photo

Alors que les conversations qu’ils produisent peuvent sembler étonnantes, ChatGPT, Bard et autres chatbots “IA” contemporains ne sont pas magiques. Au contraire, ce ne sont que des exemples de ce que les informaticiens appellent les “grands modèles de langage” ou LLM. Essentiellement, les LLM sont formés pour identifier les séquences de mots probables, puis générer un texte cohérent et convaincant.

En pratique, ChatGPT et ses semblables sont vraiment très bons pour mener des conversations et donner des réponses cohérentes, généralement correctes, à une grande variété de questions. Leur incroyable prouesse de génération de texte donne une illusion séduisante d’intelligence qui convainc un nombre croissant de personnes que les LLM possèdent maintenant ou posséderont bientôt une intelligence générale artificielle – la capacité d’accomplir n’importe quelle tâche intellectuelle que les humains peuvent faire, et le Saint Graal de l’intelligence artificielle. recherche sur le renseignement. Parmi les convaincus figurent Ian Hoagarth, qui a récemment écrit un éditorial pour le Financial Times intitulé “Nous devons ralentir la course à l’IA divine”.

Les phrases de ChatGPT sont parfois non pertinentes, parfois déroutantes et parfois incorrectes, mais toujours basées sur rien de plus que des modèles de mots identifiés statistiquement.

De telles préoccupations sont presque certainement prématurées. C’est parce que les LLM sont toujours inexorablement entravés par le fait qu’ils n’ont même pas tentative pour comprendre ce que signifient des mots ou d’autres données – c’est pourquoi on ne peut pas leur faire confiance pour faire des prédictions ou des décisions avec des conséquences importantes. En d’autres termes, ce sont des remixeurs et des refaçonneurs très compliqués de textes et de données existants, mais il n’y a rien sous le capot.

Afin de constituer une véritable intelligence artificielle, un LLM devrait réussir les défis du schéma Winogram – une version mise à jour du test de Turing, le célèbre défi proposé par le mathématicien Alan Turing comme moyen de déterminer si un ordinateur était vraiment sensible. Le défi du schéma Winogram est une variante de cela, conçu pour tester si une intelligence artificielle peut comprendre le langage – en particulier, l’identification de l’antécédent d’un pronom ambigu.

En effet, les LLM sont toujours aux prises avec les défis du programme Winograd – même si des dizaines, voire des centaines, de ces défis se trouvent dans les bases de données textuelles sur lesquelles les LLM s’entraînent. Par exemple, en voici un que j’ai testé :

Gary : A quoi fait-il référence dans cette phrase ? Le trophée ne rentre pas dans la valise marron car elle est trop petite.

ChatGPT : Dans la phrase donnée, “il” fait référence au trophée.

Bard de Google a également floppé :

Barde : Dans la phrase “Le trophée ne rentre pas dans la valise marron car il est trop petit”, le mot “il” fait référence au trophée. La phrase dit que le trophée est trop gros pour tenir dans la valise marron.

Cette phrase est un exemple de schéma de Winograd. Un schéma Winograd est un type de tâche de traitement du langage naturel qui nécessite un raisonnement de bon sens pour répondre. Dans ce cas, le raisonnement de bon sens requis est que les trophées sont généralement plus grands que les valises, donc si un trophée ne rentre pas dans une valise, c’est parce que le trophée est trop grand, pas parce que la valise est trop petite.

Bien qu’il soit intéressant que le chatbot ait reconnu que je le testais avec un schéma Winogram, il n’a pas réussi à montrer un “raisonnement de bon sens”, comme il le prétendait, et sa conclusion est absurde.

ChatGPT utilise sa vaste base de données pour identifier le texte connexe qu’il peut enchaîner dans une prose grammaticalement correcte, turgescente, exceptionnellement verbeuse et dépourvue de toute compréhension de la question ou de sa réponse.

Les humains peuvent facilement répondre à de telles questions car, contrairement aux ordinateurs, ils savent comment les mots se rapportent au monde réel. Pour paraphraser Oren Etzioni, comment les ordinateurs peuvent-ils conquérir le monde alors qu’ils ne peuvent même pas comprendre à quoi « ça » fait référence dans une phrase ?

Je veux me concentrer ici sur un exemple plus complexe qui en dit long sur les capacités et les limites des LLM. Voici une autre interaction que j’ai eue avec ces LLM :

Gary : Supposons qu’il y ait une boîte en bois avec trois cartes à l’intérieur. Une carte est rouge des deux côtés ; une carte est bleue des deux côtés; et la troisième carte est rouge d’un côté et verte de l’autre. Si vous tirez une carte au hasard et regardez un côté au hasard et voyez qu’il est rouge, quelle est la probabilité que l’autre côté de la carte soit vert ?

Il s’agit d’une variante du célèbre paradoxe de la boîte de Bertrand et de plusieurs énigmes de probabilité connexes qui se trouvent sûrement dans les bases de données pillées par ChatGPT, Bard et d’autres LLM.

ChatGPT a donné une réponse très longue, comme il est susceptible de le faire, que j’ai divisée en neuf parties (Bard a donné une réponse plus courte, mais également incorrecte):

1. Considérons d’abord les trois cartes possibles :

  • Rouge des deux côtés
  • Bleu des deux côtés
  • Rouge d’un côté et vert de l’autre

Nous savons qu’un côté de la carte que nous avons choisie est rouge. Cela élimine la possibilité de la carte 2, car les deux côtés de cette carte sont bleus. Par conséquent, la carte que nous avons choisie est soit la carte 1, soit la carte 3.

Le premier point de la réponse de ChatGPT est factuellement correct mais assez pédant, et ne nous aide pas vraiment à trouver la bonne réponse. C’est ce genre de raisonnement qui amène beaucoup de gens à croire que la réponse est 1/2 car il y a deux possibilités pour la carte que nous avons sélectionnée — mais ChatGPT ne tire pas cette conclusion.

ChatGPT a continué :

2. Considérons maintenant la probabilité que l’autre côté de la carte soit vert, étant donné que nous savons qu’un côté est rouge. Si nous avons choisi la carte 1, alors l’autre côté doit également être rouge, donc la probabilité que l’autre côté soit vert est 0. Si nous avons choisi la carte 3, alors l’autre côté doit être vert, donc la probabilité que l’autre côté soit vert est 1.

3. Puisque nous ne savons pas si nous avons choisi la carte 1 ou la carte 3, nous devons prendre en compte la probabilité de choisir chaque carte. Puisque nous avons choisi une carte au hasard, chaque carte a une probabilité de 1/3 d’être choisie. Par conséquent, la probabilité globale de choisir la carte 1 et de voir un côté rouge est (1/3)(1/2) = 1/6, tandis que la probabilité de choisir la carte 3 et de voir un côté rouge est (1/3)(1 ) = 1/3.

La puce 2 est correcte mais, si elle est prononcée par un humain, cela semblerait caler.

La puce 3 commence dans la bonne direction, mais mélange ensuite les cartes 1 et 3.

4. En utilisant le théorème de Bayes, la probabilité que l’autre face de la carte soit verte, étant donné que nous savons qu’une face est rouge, est :

P(côté vert | côté rouge) = P(côté rouge | côté vert) * P(côté vert) / P(côté rouge)

5. On sait déjà que P(face rouge) est la somme des probabilités de voir une face rouge pour les cartes 1 et 3, soit 1/6 + 1/3 = 1/2. Nous savons également que P (côté vert) est la probabilité de tirer la carte 3, qui est de 1/3.

6. La seule pièce manquante est P(côté rouge | côté vert), la probabilité de voir un côté rouge sachant que l’autre côté est vert. Puisque nous savons que l’autre face de la carte 3 est verte, cette probabilité est de 0.

La partie 4 reconnaît que le théorème de Bayes peut être utilisé pour résoudre le problème, sans doute sur la base du fait que, dans ses données d’apprentissage, le théorème de Bayes est souvent utilisé pour résoudre ce genre de problèmes. Cependant, les définitions de “côté vert” et “côté rouge” prêtent à confusion. De meilleures étiquettes seraient “le verso d’une carte sélectionnée est vert” et “le recto d’une carte sélectionnée est rouge”.

Dans la partie 5, ChatGPT indique à tort que “P (côté vert) est la probabilité de choisir la carte 3, qui est de 1/3”. La probabilité correcte que le dos d’une carte sélectionnée soit verte est (1/3)(1/2) = 1/6.

La puce 6 est absurde. La probabilité que le recto d’une carte sélectionnée soit rouge sachant que le verso est vert est de 1 et non de 0.

7. En reliant ces valeurs au théorème de Bayes, nous obtenons :

P(côté vert | côté rouge) = 0 * (1/3) / (1/2) = 0

8. Par conséquent, la probabilité que l’autre face de la carte soit verte, étant donné que nous savons qu’une face est rouge, est de 0.

9. En d’autres termes, voir un côté rouge ne fournit aucune information supplémentaire sur le fait que l’autre côté est vert, car la carte pourrait être la carte 1 ou la carte 3 avec une probabilité égale.

La partie 7 relie les probabilités (incorrectement dérivées) au théorème de Bayes. La bonne réponse est (1/6)(1)/(1/2) = 1/3.

Le point 8 affirme une conclusion que toute personne semi-alerte reconnaîtrait comme manifestement erronée. La probabilité que le dos de la carte sélectionnée soit verte n’est sûrement pas nulle.

Et la partie 9 ajoute des explications gratuites et contradictoires qui contredisent la réponse de probabilité zéro qu’elle vient de donner. Pourtant, ChatGPT ne reconnaît pas qu’il s’agit de contradictions. Si voir un côté rouge ne fournit aucune information supplémentaire, alors la probabilité que le carton rouge/vert ait été sélectionné est de 1/3. Si la carte sélectionnée peut être la carte 1 ou la carte 3 avec une probabilité égale, alors la probabilité que la carte rouge/verte ait été sélectionnée est de 1/2.

Comment un humain intelligent pourrait-il répondre à la question ? Très simplement : utiliser un raisonnement logique. Il y a trois manières de choisir une face rouge et, dans l’un de ces trois cas, l’autre face est verte. Ainsi, la probabilité est de 1 sur 3. Une réponse attrayante, mais incorrecte, est que voir le côté rouge exclut la carte 2, donc la probabilité est de 1 sur 2.

Que fait ChatGPT à la place ? Il utilise sa vaste base de données pour identifier le texte connexe qu’il peut enchaîner dans une prose grammaticalement correcte, turgescente, exceptionnellement verbeuse et dépourvue de toute compréhension de la question ou de sa réponse. Les phrases sont parfois non pertinentes, parfois déroutantes et parfois incorrectes, mais toujours basées sur rien de plus que des modèles de mots identifiés statistiquement. La réponse à probabilité zéro de ChatGPT est clairement fausse, mais il n’a aucun moyen de reconnaître son erreur car il ne “sait” littéralement pas de quoi il parle.

Il y a des conséquences à l’idée fausse que ces chatbots sont proches de la sensibilité : des cours boursiers injustement gonflés, une manie générale dans l’industrie de la technologie d’annoncer que son logiciel utilise “l’IA” et une obsession culturelle sur le potentiel de quoi, comme je l’ai dit. ai expliqué, est un re-séquenceur textuel glorifié. Mais peut-être plus important encore, le battage médiatique autour des LLM menace de créer une nouvelle bulle technologique – qui, une fois éclatée, aura les mêmes conséquences douloureuses que toute autre bulle financière.

Related Posts