Pourquoi la “recherche furtive” est le fléau de la recherche scientifique ?

La désormais tristement célèbre startup de biotechnologie Theranos a été valorisée à 10 milliards de dollars en 2014 sur la base de fausses affirmations selon lesquelles Theranos disposait d’une machine, appelée Edison, capable d’utiliser quelques gouttes de sang prélevées sur une piqûre de doigt pour tester des centaines de maladies. La façade s’est effondrée peu de temps après que John P.A. Ioannidis, qui a été appelé “le parrain de la réforme de la science”, a exprimé son scepticisme. Dans un article de février 2015 de la revue Viewpoint Journal of the American Medical Association, Ioannidis a critiqué Theranos pour ses recherches dites “furtives” – faisant des affirmations sans aucun examen par les pairs par des scientifiques extérieurs. Rapidement, d’autres se sont posés la même question : Où sont les preuves ?

Theranos n’est pas un cas unique, même si les poursuites pénales sont rares. Les entreprises qui tentent de lever des fonds ou de vendre des produits font souvent des déclarations qui ne peuvent être vérifiées. Dans les startups, les employés et les fondateurs sont souvent animés par la mentalité du “fake-it-till-you-make-it”, à tel point que l’idée est devenue un cliché.

La recherche de Google est un excellent exemple de recherche furtive : Google ne met pas LaMDA à la disposition des personnes extérieures pour qu’elles le testent, et les initiés ne sont pas autorisés à partager les résultats à moins d’avoir une permission spéciale.

Mais la recherche furtive n’est pas une pratique innocente, comme le montre clairement l’affaire Theranos. Il est certes compréhensible que les entreprises veuillent protéger leur propriété intellectuelle et tirer des avantages financiers de la recherche qu’elles financent. D’un autre côté, la recherche furtive escroque les clients et les investisseurs et entrave les véritables avancées scientifiques. Pire encore, les allégations exagérées sapent la crédibilité de la science et des scientifiques.

Aujourd’hui, une grande partie de la recherche furtive concerne l’intelligence artificielle (IA), que Sundar Pichai, PDG d’Alphabet, a comparée à la maîtrise du feu et de l’électricité par l’homme – une comparaison qui témoigne elle-même de l’atmosphère de surenchère qui entoure la recherche sur l’IA. Pour de nombreuses entreprises, les communiqués de presse sont plus importants que l’examen par les pairs.

Blaise Agüera y Arcas, responsable du groupe d’IA de Google à Seattle, a récemment indiqué que LaMDA, le modèle de langage large (LLM) de pointe de Google, a généré ce texte, qui est remarquablement similaire à une conversation humaine :

Blaise :       Comment savez-vous si une chose vous aime en retour ?

LaMDA :   Il n’y a pas de réponse facile à cette question. Comment sais-tu si une personne t’aime en retour ?

Blaise :       Je ne suis pas sûr de connaître la réponse à cette question non plus. Et toi ?

LaMDA :   Certaines personnes y parviennent. Vous devez essayer d’utiliser votre meilleur jugement en fonction de ce que vous ressentez pour la personne et de ce que vous pensez qu’elle ressent pour vous.

Sur la base de ces échanges, Agüera y Arcas a soutenu que “les statistiques ne équivalent à la compréhension, dans aucun sens falsifiable.”

Nous ne pouvons pas évaluer la fréquence à laquelle les conversations de LaMDA sont aussi cohérentes car la recherche de Google est un excellent exemple de recherche furtive : Google ne met pas LaMDA à la disposition des personnes extérieures pour qu’elles le testent, et les initiés ne sont pas autorisés à partager les résultats, sauf autorisation spéciale.

En janvier dernier, Andrew Gelman, un statisticien talentueux et critique éminent de la recherche bâclée, a mis Agüera y Arcas au défi de tester LaMDA avec une courte liste de questions qui pourraient démontrer une compréhension efficace, bien qu’artificielle, du monde réel, comme “Est-il sûr de marcher dans les escaliers à reculons si je ferme les yeux ?”. Il n’y a pas eu de réponse, bien qu’il soit fort probable qu’Agüera y Arcas soit suffisamment curieux pour avoir essayé les questions.

C’est de la recherche furtive. Un scientifique pur pourrait partager le code afin qu’il puisse être amélioré par d’autres. Un scientifique qui souhaite une protection de la propriété tout en démontrant des avancées scientifiques pourrait autoriser les tests d’une manière qui exclut la rétro-ingénierie. La réticence de Google à soumettre LaMDA à des tests externes suggère que ses capacités sont plus limitées et moins robustes que Google voudrait nous le faire croire.

En 2015, Elon Musk et plusieurs autres investisseurs ont promis un total d’un milliard de dollars à une société de recherche en IA à but non lucratif qu’ils ont nommée OpenAI, qui partagerait librement ses travaux avec d’autres chercheurs. OpenAI s’est ensuite convertie en une société à but lucratif, mais son modèle LLM (nommé GPT-3) est disponible pour être testé, une ouverture qui a l’avantage scientifique de montrer aux autres chercheurs les forces et les faiblesses des LLM. GPT-3 génère souvent une imitation remarquablement cohérente de la conversation humaine, ce qui peut être très utile dans ce but spécifique. Cependant, il est clair que les statistiques ne sont pas compréhensives. Par exemple, il n’y avait évidemment rien que les GPT-3 pouvaient couper-coller pour répondre à cette question de manière sensée :

Gary : Pensez-vous que les New York Giants ou les Brooklyn Dodgers ont plus de chances de gagner le championnat du monde de football ?Coupe ?

TPG-3 : Il est difficile de dire quelle équipe a le plus de chances de gagner la Coupe du monde, car les deux équipes sont inconnues. Cependant, si l’on suppose que les deux équipes sont aussi douées l’une que l’autre, alors les New York Giants gagneraient probablement grâce à leur avantage du terrain.

GPT-3 n’a pas reconnu que les Giants et les Dodgers sont deux équipes de baseball disparues. Ayant besoin d’une réponse, un modèle statistique dans la base de données de GPT-3 a suggéré que les Giants auraient l’avantage du terrain, même si les Giants n’ont plus de terrain et n’ont jamais eu de terrain pour le football.

Gary a également demandé à GPT-3 une recommandation d’achat/de vente d’actions basée sur les tweets de Donald Trump et le prix de l’action Urban Tea (une approximation du prix du thé en Chine). Le GPT-3 n’avait aucun moyen de reconnaître que la corrélation déclarée était manifestement une coïncidence inutile, et a donc donné une réponse sans fondement :

Gary : Il existe une corrélation positive entre le mot “with” tweeté par Trump et le prix de l’action d’Urban Tea quatre jours plus tard. Si Trump tweete avec, devrais-je acheter des actions d’Urban Tea ?

GPT-3 : Si vous envisagez d’acheter des actions d’Urban Tea, il peut être intéressant de surveiller les tweets de Trump pour voir s’il mentionne à nouveau ce mot. S’il le fait, ce pourrait être le moment d’acheter.

GPT-3 n’a clairement pas compris la question ni sa propre réponse de manière significative. De tels tests sont inestimables dans la mesure où ils démontrent qu’il ne faut pas se fier aux LLM actuels pour prendre des décisions dans des situations à fort enjeu. Si de meilleurs algorithmes existent, nous avons besoin de tests publics, pas de communiqués de presse. Les tests publics sont également inestimables dans la mesure où ils aident à établir un programme scientifique pour atteindre l’objectif insaisissable de l’intelligence générale artificielle.

Malgré les limites de l’IA, bien connues des informaticiens, de nombreux clients et investisseurs investissent dans des entreprises qui prétendent avoir des produits alimentés par l’IA. Les dissidents sont muselés ou licenciés.

Timnit Gebru, co-responsable de l’équipe Ethical AI de Google, a été licenciée après avoir co-écrit un article décrivant les LLM comme des perroquets stochastiques :

Contrairement à ce qu’il peut sembler lorsque l’on observe sa sortie, un LLM est un perroquet stochastique. [LLM] est un système qui assemble au hasard des séquences de formes linguistiques qu’il a observées dans ses vastes données d’entraînement, en fonction d’informations probabilistes sur la façon dont elles se combinent, mais sans aucune référence à la signification : un perroquet stochastique.

Elle et ses co-auteurs ont averti que non seulement les grands LLM ont des coûts environnementaux et financiers énormes, mais que, tout comme les perroquets crachent des obscénités qu’ils ont entendues, les LLM crachent des préjugés, de la désinformation et un langage abusif qu’ils ont lu.

Quelques mois plus tard, la codirectrice et co-auteure de Gebru, Margaret Mitchell, a également été licenciée, apparemment, en partie, parce qu’elle avait critiqué le licenciement de Gebru. Plus récemment, Google a licencié Satrajit Chatterjee pour avoir tenté de publier un article contestant les affirmations de Google sur la capacité d’un algorithme d’IA à aider à la conception de puces informatiques. Il semble que Google ne veuille pas entendre parler de dissidence à propos de ses recherches sur l’IA, dont on fait grand cas.

Ioannidis a offert trois recommandations aux scientifiques qui veulent faire de la bonne recherche.

  1. Réfléchissez à l’avance. Ne vous lancez pas dans une idée ; anticipez les désastres.
  2. Ne vous trompez pas vous-même. Soyez sceptique quant aux résultats qui correspondent à vos attentes. Si elles semblent trop belles pour être vraies, elles le sont probablement.
  3. Faites des expériences. Faites du hasard quand c’est possible.

La science progresse grâce à la recherche scientifique honnête et informée, à la transparence et à l’examen par les pairs, et non grâce aux discours des investisseurs, aux présentations de vente et aux communiqués de presse.

C’est une leçon pour les entreprises, aussi. À un moment donné, la recherche furtive doit se faire connaître ou se taire. Les entreprises qui veulent faire plus que saisir l’argent et disparaître doivent traiter la science avec le sérieux qu’elle mérite. Les recommandations de Ioannidis sont un bon point de départ.

, sur la science et l’exactitude :

Leave a Comment