Nouvelle technique d’apprentissage automatique pour identifier les similitudes structurelles et les tendances des matériaux

Avatar photo
Low-Dimensional Uniform Manifold Approximation Projection
Projection d'approximation de collecteur uniforme de faible dimension

Projection d’approximation de collecteur uniforme de faible dimension montrant une similarité d’image sensible à la symétrie à partir d’une base de données de plus de 25 000 images de microscopie à force de réponse piézoélectrique. Crédit : Joshua Agar/Université Lehigh

Un nouveau réseau de neurones pour comprendre la symétrie et accélérer la recherche sur les matériaux.

À l’aide d’un vaste ensemble de données non structuré glané à partir de 25 000 images, les scientifiques démontrent pour la première fois une nouvelle technique d’apprentissage automatique pour identifier les similitudes structurelles et les tendances dans les matériaux.

Comprendre les relations structure-propriété est un objectif clé de la recherche sur les matériaux, selon Joshua Agar, membre du corps professoral en Université LehighDépartement de science et génie des matériaux. Et pourtant, actuellement, aucune métrique n’existe pour comprendre la structure des matériaux en raison de la complexité et de la nature multidimensionnelle de la structure.

Les réseaux de neurones artificiels, un type d’apprentissage automatique, peuvent être entraînés pour identifier les similitudes et même corréler des paramètres tels que la structure et les propriétés, mais il existe deux défis majeurs, explique Agar. La première est que la majorité des grandes quantités de données générées par les expériences sur les matériaux ne sont jamais analysées. Cela s’explique en grande partie par le fait que ces images, produites par des scientifiques dans des laboratoires du monde entier, sont rarement stockées de manière utilisable et ne sont généralement pas partagées avec d’autres équipes de recherche. Le deuxième défi est que les réseaux de neurones ne sont pas très efficaces pour apprendre la symétrie et la périodicité (à quel point la structure d’un matériau est périodique), deux caractéristiques de la plus haute importance pour les chercheurs en matériaux.

Projection pour visualiser comment les réseaux de neurones apprennent

Projection d’approximation de variétés uniformes de faible dimension pour visualiser comment les réseaux de neurones apprennent la similitude sémantique des images naturelles. Crédit : Joshua Agar/Université Lehigh

Aujourd’hui, une équipe dirigée par l’Université de Lehigh a développé une nouvelle approche d’apprentissage automatique qui peut créer des projections de similarité via l’apprentissage automatique, permettant aux chercheurs de rechercher pour la première fois une base de données d’images non structurées et d’identifier les tendances. Agar et ses collaborateurs ont développé et entraîné un modèle de réseau neuronal pour inclure des caractéristiques sensibles à la symétrie, puis ont appliqué leur méthode à un ensemble de 25 133 images de microscopie à force de réponse piézoélectrique recueillies sur divers systèmes de matériaux sur cinq ans au Université de Californie, Berkeley. Les résultats : ils ont pu regrouper des classes similaires de matériaux et observer les tendances, formant une base pour commencer à comprendre les relations structure-propriété.

“L’une des nouveautés de notre travail est que nous avons construit un réseau neuronal spécial pour comprendre la symétrie et nous l’utilisons comme un extracteur de caractéristiques pour mieux comprendre les images”, explique Agar, auteur principal de l’article où le travail est décrit : « Exploration de similarité d’images récursives tenant compte de la symétrie pour la microscopie des matériaux », publié aujourd’hui dans Nature Computational Materials Science. En plus d’Agar, les auteurs incluent, de l’Université de Lehigh : Tri NM Nguyen, Yichen Guo, Shuyu Qin et Kylie S. Frew et, de l’Université de Stanford : Ruijuan Xu. Nguyen, un auteur principal, était un étudiant de premier cycle à l’Université Lehigh et poursuit actuellement un doctorat. à Stanford.

L’équipe a pu arriver à des projections en utilisant l’approximation et la projection uniformes de collecteurs (UMAP), une technique de réduction de dimensionnalité non linéaire. Cette approche, dit Agar, permet aux chercheurs d’apprendre “… de manière floue, la topologie et la structure de niveau supérieur des données et de les compresser en 2D”.

« Si vous entraînez un réseau de neurones, le résultat est un vecteur ou un ensemble de nombres qui est un descripteur compact des caractéristiques. Ces caractéristiques aident à classer les choses afin qu’une certaine similitude soit apprise », explique Agar. « Ce qui est produit est encore assez volumineux dans l’espace, car vous pouvez avoir 512 caractéristiques différentes ou plus. Donc, alors vous voulez le compresser dans un espace qu’un humain peut comprendre tel que 2D, ou 3D―ou, peut être, 4D.

En faisant cela, Agar et son équipe ont pu prendre plus de 25 000 images et regrouper des classes de matériel très similaires.

“Des types similaires de structures dans le matériel sont sémantiquement proches les uns des autres et certaines tendances peuvent également être observées, en particulier si vous appliquez des filtres de métadonnées”, explique Agar. « Si vous commencez à filtrer par qui a fait le dépôt, qui a fait le matériel, qu’essayaient-ils de faire, quel est le système matériel… vous pouvez vraiment commencer à affiner et obtenir de plus en plus de similitudes. Cette similitude peut ensuite être liée à d’autres paramètres comme les propriétés.

Ce travail démontre comment l’amélioration du stockage et de la gestion des données pourrait accélérer rapidement les découvertes de matériaux. Selon Agar, les images et les données générées par des expériences ratées sont particulièrement intéressantes.

“Personne ne publie des résultats ratés et c’est une grande perte car quelques années plus tard, quelqu’un répète la même série d’expériences”, explique Agar. « Donc, vous gaspillez de très bonnes ressources sur une expérience qui ne fonctionnera probablement pas. »

Au lieu de perdre toutes ces informations, les données déjà collectées pourraient être utilisées pour générer de nouvelles tendances jamais vues auparavant et accélérer la découverte de manière exponentielle, explique Agar.

Cette étude est le premier « cas d’utilisation » d’une nouvelle entreprise innovante de stockage de données hébergée au Oak Ridge National Laboratory appelée Alimenté par les données. DataFed, selon son site Web, est « … un système fédéré de stockage, de collaboration et de gestion du cycle de vie complet pour la science informatique et/ou l’analyse de données au sein du calcul haute performance distribué (HPC) et/ou du cloud computing. environnements.”

« Mon équipe chez Lehigh a participé à la conception et au développement de DataFed afin de le rendre pertinent pour les cas d’utilisation scientifiques », déclare Agar. « Lehigh est la première implémentation en direct de ce système entièrement évolutif. Il s’agit d’une base de données fédérée afin que n’importe qui puisse ouvrir son propre serveur et être lié à l’installation centrale.

Agar est l’expert en apprentissage automatique de l’équipe Presidential Nano-Human Interface Initiative de la Lehigh University. L’initiative interdisciplinaire, intégrant les sciences sociales et l’ingénierie, cherche à transformer les façons dont les humains interagissent avec les instruments de découverte scientifique pour accélérer les innovations.

« L’un des principaux objectifs de la Nano/Human Interface Initiative de Lehigh est de mettre des informations pertinentes à la portée des expérimentateurs pour fournir des informations exploitables qui permettent une prise de décision plus éclairée et accélèrent la découverte scientifique », explique Agar. « Les humains ont une capacité limitée de mémoire et de remémoration. DataFed est un Memex des temps modernes ; il fournit une mémoire d’informations scientifiques qui peuvent être facilement trouvées et rappelées.

DataFed fournit un outil particulièrement puissant et inestimable pour les chercheurs engagés dans la science d’équipe interdisciplinaire, permettant aux chercheurs qui collaborent à des projets d’équipe situés dans des endroits différents/éloignés d’accéder aux données brutes des uns et des autres. C’est l’un des éléments clés de notre initiative présidentielle Lehigh Nano/Human Interface (NHI) pour accélérer les découvertes scientifiques », a déclaré Martin P. Harmer, professeur de la Fondation Alcoa au département de science et ingénierie des matériaux de Lehigh et directeur de l’interface nano/humaine. Initiative.

Référence : « Exploration de similarité d’images récursives sensibles à la symétrie pour la microscopie des matériaux » 8 octobre 2021, Matériaux de calcul npj.
DOI : 10.1038 / s41524-021-00637-y

Le travail décrit a été soutenu par la Lehigh University Nano/Human Interface Presidential Initiative et une subvention de la National Science Foundation dans le cadre de TRIPODS + X.

Related Posts