Peut-on savoir si les modèles d'apprentissage automatique de l'IA fonctionnent correctement ?

Les méthodes d’explication des modèles d’apprentissage automatique fonctionnent-elles bien ?

Des chercheurs développent un moyen de tester si les méthodes populaires de compréhension des modèles d’apprentissage automatique fonctionnent correctement.

Imaginez une équipe de médecins utilisant un réseau neuronal pour détecter un cancer dans des images de mammographie. Même si ce modèle d’apprentissage automatique semble être performant, il pourrait se concentrer sur des caractéristiques de l’image qui sont accidentellement corrélées aux tumeurs, comme un filigrane ou un horodatage, plutôt que sur des signes réels de tumeurs.

Pour tester ces modèles, les chercheurs utilisent des “méthodes d’attribution de caractéristiques”, des techniques censées leur indiquer quelles parties de l’image sont les plus importantes pour la prédiction du réseau neuronal. Mais que se passe-t-il si la méthode d’attribution rate des caractéristiques importantes pour le modèle ? Comme les chercheurs ne savent pas quelles caractéristiques sont importantes au départ, ils n’ont aucun moyen de savoir si leur méthode d’évaluation n’est pas efficace.

Pour aider à résoudre ce problème, MIT ont mis au point un processus permettant de modifier les données d’origine afin d’être certains des caractéristiques qui sont réellement importantes pour le modèle. Ils utilisent ensuite cet ensemble de données modifié pour évaluer si les méthodes d’attribution des caractéristiques peuvent identifier correctement ces caractéristiques importantes.

Méthodes d'attribution de caractéristiques par réseau neuronal

Les méthodes d’attribution des caractéristiques sont utilisées pour déterminer si un réseau neuronal fonctionne correctement lors de l’exécution d’une tâche telle que la classification d’images. Les chercheurs ont développé une nouvelle méthode pour évaluer si ces méthodes d’attribution de caractéristiques identifient correctement les caractéristiques d’une image qui sont importantes pour la prédiction d’un réseau neuronal. Crédit : MIT News, avec des images provenant d’iStockphoto

Ils ont constaté que même les méthodes les plus populaires passent souvent à côté des caractéristiques importantes d’une image, et que certaines méthodes parviennent à peine à obtenir d’aussi bons résultats qu’une base de référence aléatoire. Cela pourrait avoir des implications majeures, surtout si les réseaux neuronaux sont appliqués dans des situations à fort enjeu comme les diagnostics médicaux. Si le réseau ne fonctionne pas correctement et que les tentatives de détection de ces anomalies ne fonctionnent pas non plus correctement, les experts humains peuvent ne pas se rendre compte qu’ils sont induits en erreur par le modèle défectueux, explique l’auteur principal, Yilun Zhou, étudiant diplômé en génie électrique et en informatique au Computer Science and Artificial Intelligence Laboratory (CSAIL).

“Toutes ces méthodes sont très largement utilisées, notamment dans certains scénarios à fort enjeu, comme la détection du cancer à partir de rayons X ou de scanners. Mais ces méthodes d’attribution de caractéristiques peuvent être erronées dès le départ. Elles peuvent mettre en évidence un élément qui ne correspond pas à la véritable caractéristique utilisée par le modèle pour faire une prédiction, ce qui est souvent le cas. Si vous voulez utiliser ces méthodes d’attribution des caractéristiques pour justifier qu’un modèle fonctionne correctement, vous devez vous assurer que la méthode d’attribution des caractéristiques elle-même fonctionne correctement en premier lieu”, dit-il.

M. Zhou a rédigé l’article avec Serena Booth, une autre étudiante diplômée de l’EECS, Marco Tulio Ribeiro, un chercheur de Microsoft Research, et l’auteur principal Julie Shah, professeur d’aéronautique et d’astronautique au MIT et directrice du groupe de robotique interactive du CSAIL.

Se concentrer sur les caractéristiques

Dans la classification d’images, chaque pixel d’une image est une caractéristique que le réseau neuronal peut utiliser pour faire des prédictions, il y a donc littéralement des millions de caractéristiques possibles sur lesquelles il peut se concentrer. Si les chercheurs veulent concevoir un algorithme pour aider les photographes en herbe à s’améliorer, par exemple, ils pourraient former un modèle permettant de distinguer les photos prises par des photographes professionnels de celles prises par des touristes occasionnels. Ce modèle pourrait être utilisé pour évaluer dans quelle mesure les photos amateurs ressemblent aux photos professionnelles, et même fournir un retour d’information spécifique sur l’amélioration. Les chercheurs voudraient que ce modèle se concentre sur l’identification des éléments artistiques des photos professionnelles pendant la formation, comme l’espace colorimétrique, la composition et le post-traitement. Mais il se trouve qu’une photo prise par un professionnel contient probablement le nom du photographe en filigrane, alors que peu de photos de touristes en sont pourvues.

“Évidemment, nous ne voulons pas dire aux aspirants photographes qu’un filigrane est tout ce dont vous avez besoin pour réussir votre carrière, nous voulons donc nous assurer que notre modèle se concentre sur les caractéristiques artistiques plutôt que sur la présence du filigrane. Il est tentant d’utiliser des méthodes d’attribution de caractéristiques pour analyser notre modèle, mais en fin de compte, il n’y a aucune garantie qu’elles fonctionnent correctement, puisque le modèle pourrait utiliser des caractéristiques artistiques, le filigrane ou toute autre caractéristique”, a déclaré M. Zhou.dit.

“Nous ne savons pas ce que sont ces corrélations parasites dans l’ensemble de données. Il pourrait y avoir tellement de choses différentes qui pourraient être complètement imperceptibles pour une personne, comme la résolution d’une image”, ajoute Booth. “Même s’il n’est pas perceptible pour nous, un réseau neuronal peut probablement extraire ces caractéristiques et les utiliser pour la classification. C’est là le problème sous-jacent. Nous ne comprenons pas si bien nos ensembles de données, mais il est également impossible de comprendre aussi bien nos ensembles de données.”

Les chercheurs ont modifié le jeu de données pour affaiblir toutes les corrélations entre l’image originale et les étiquettes de données, ce qui garantit qu’aucune des caractéristiques originales ne sera plus importante.

Ensuite, ils ajoutent une nouvelle caractéristique à l’image qui est si évidente que le réseau neuronal doit se concentrer sur elle pour faire sa prédiction, comme des rectangles lumineux de différentes couleurs pour différentes classes d’images.

“Nous pouvons affirmer en toute confiance que tout modèle atteignant une confiance vraiment élevée doit se concentrer sur ce rectangle coloré que nous avons mis. Nous pouvons alors voir si toutes ces méthodes d’attribution de caractéristiques se précipitent pour mettre en évidence cet emplacement plutôt que tout le reste”, explique M. Zhou.

Des résultats “particulièrement alarmants”.

Ils ont appliqué cette technique à un certain nombre de méthodes d’attribution de caractéristiques différentes. Pour la classification des images, ces méthodes produisent ce que l’on appelle une carte de saillance, qui montre la concentration de caractéristiques importantes réparties sur l’ensemble de l’image. Par exemple, si le réseau neuronal classe des images d’oiseaux, la carte de saillance peut montrer que 80 % des caractéristiques importantes sont concentrées autour du bec de l’oiseau.

Après avoir supprimé toutes les corrélations dans les données d’image, ils ont manipulé les photos de plusieurs façons, par exemple en floutant certaines parties de l’image, en ajustant la luminosité ou en ajoutant un filigrane. Si la méthode d’attribution des caractéristiques fonctionne correctement, près de 100 % des caractéristiques importantes devraient être situées autour de la zone manipulée par les chercheurs.

Les résultats ne sont pas encourageants. Aucune des méthodes d’attribution des caractéristiques ne s’est approchée de l’objectif de 100 %, la plupart ont à peine atteint un niveau de base aléatoire de 50 %, et certaines ont même obtenu des résultats inférieurs à la ligne de base dans certains cas. Ainsi, même si la nouvelle caractéristique est la seule que le modèle puisse utiliser pour faire une prédiction, les méthodes d’attribution de caractéristiques ne parviennent pas toujours à la détecter.

“Aucune de ces méthodes ne semble être très fiable, pour tous les différents types de corrélations parasites. C’est particulièrement alarmant parce que, dans les ensembles de données naturelles, nous ne savons pas lesquelles de ces corrélations erronées peuvent s’appliquer”, explique M. Zhou. “Il peut s’agir de toutes sortes de facteurs. Nous pensions pouvoir faire confiance à ces méthodes pour nous renseigner, mais dans notre expérience, il semble vraiment difficile de leur faire confiance. “

Toutes les méthodes d’attribution de caractéristiques qu’ils ont étudiées étaient meilleures pour détecter une anomalie que l’absence d’anomalie. En d’autres termes, ces méthodes pouvaient trouver un filigrane plus facilement qu’elles ne pouvaient identifier qu’une image ne contient pas de filigrane. Ainsi, dans ce cas, il serait plus difficile pour les humains de faire confiance à un modèle qui donne une prédiction négative.

Les travaux de l’équipe montrent qu’il est essentiel de tester les méthodes d’attribution des caractéristiques avant de les appliquer à un modèle réel, en particulier dans les situations à fort enjeu.

“Les chercheurs et les praticiens peuvent utiliser des techniques d’explication comme les méthodes d’attribution des caractéristiques pour susciter la confiance d’une personne dans un modèle, mais cette confiance n’est pas fondée si la technique d’explication n’est pas d’abord évaluée de manière rigoureuse”, explique Shah. “Une technique d’explication peut être utilisée pour aider à calibrer la confiance d’une personne dans un modèle, mais il est tout aussi important de calibrer la confiance d’une personne dans les explications du modèle.”

Pour l’avenir, les chercheurs veulent utiliser leur procédure d’évaluation pour étudier des caractéristiques plus subtiles ou réalistes qui pourraient entraîner des corrélations fallacieuses. Un autre domaine de travail qu’ils souhaitent explorer consiste à aider les humains à comprendre les cartes de saillance afin qu’ils puissent prendre de meilleures décisions sur la base des prédictions d’un réseau neuronal.

Référence : “Do Feature Attribution Methods Correctly Attribute Features ?” par Yilun Zhou, Serena Booth, Marco Tulio Ribeiro et Julie Shah, 15 décembre 2021, Informatique > ; Apprentissage automatique.
arXiv:2104.14403

Cette recherche a été soutenue, en partie, par la National Science Foundation.

Peut-on savoir si les modèles d’apprentissage automatique de l’IA fonctionnent correctement ?

Les méthodes d’explication des modèles d’apprentissage automatique fonctionnent-elles bien ?

Se concentrer sur les caractéristiques

Des résultats “particulièrement alarmants”.

Related Posts

Puce silicium-photonique supraconductrice développée pour la communication quantique

L’avion expérimental supersonique silencieux X-59 de la NASA est de retour en Californie après des essais critiques au sol.

Photosynthèse artificielle : Un nouveau dispositif fait progresser la viabilité commerciale des carburants solaires