Yekaterina “Kate” Shulgina était une étudiante de première année à la Graduate School of Arts and Sciences, à la recherche d’un court projet de biologie computationnelle afin de pouvoir vérifier les exigences de son programme en biologie des systèmes. Elle se demandait comment le code génétique, autrefois considéré comme universel, pouvait évoluer et changer.
C’était en 2016 et aujourd’hui, Shulgina est sortie à l’autre bout de ce projet à court terme avec un moyen de déchiffrer ce mystère génétique. Elle le décrit dans un nouvel article de la revue eLife avec le biologiste de Harvard Sean Eddy.
Le rapport détaille un nouveau programme informatique capable de lire la séquence du génome de n’importe quel organisme, puis de déterminer son code génétique. Le programme, appelé Codetta, a le potentiel d’aider les scientifiques à approfondir leur compréhension de l’évolution du code génétique et à interpréter correctement le code génétique des organismes nouvellement séquencés.
“C’est en soi une question de biologie très fondamentale”, a déclaré Shulgina, qui effectue ses recherches de troisième cycle au Eddy’s Lab.
Le code génétique est l’ensemble de règles qui indique aux cellules comment interpréter les combinaisons de trois lettres de nucléotides en protéines, souvent appelées les éléments constitutifs de la vie. Presque tous les organismes, de E. coli aux humains, utilise le même code génétique. C’est pourquoi on pensait autrefois que le code était gravé dans la pierre. Mais les scientifiques ont découvert une poignée de valeurs aberrantes – des organismes qui utilisent des codes génétiques alternatifs – existent là où l’ensemble d’instructions est différent.
C’est là que Codetta peut briller. Le programme peut aider à identifier davantage d’organismes qui utilisent ces codes génétiques alternatifs, contribuant ainsi à jeter un nouvel éclairage sur la façon dont les codes génétiques peuvent même changer en premier lieu.
“Comprendre comment cela s’est produit nous aiderait à concilier pourquoi nous pensions à l’origine que c’était impossible … et comment ces processus vraiment fondamentaux fonctionnent réellement”, a déclaré Shulgina.
Déjà, Codetta a analysé les séquences du génome de plus de 250 000 bactéries et autres organismes unicellulaires appelés archées pour des codes génétiques alternatifs, et en a identifié cinq qui n’ont jamais été vus. Dans les cinq cas, le code de l’amino acide l’arginine a été réaffectée à un autre acide aminé. On pense que c’est la première fois que des scientifiques voient cet échange de bactéries et pourraient faire allusion aux forces évolutives qui modifient le code génétique.
Les chercheurs disent que l’étude marque le plus grand dépistage de codes génétiques alternatifs. Codetta a essentiellement analysé chaque génome disponible pour les bactéries et les archées. Le nom du programme est un croisement entre les codons, la séquence de trois nucléotides qui forment des morceaux du code génétique, et la pierre de Rosette, une plaque de roche inscrite en trois langues.
Le travail marque un moment décisif pour Shulgina, qui a passé les cinq dernières années à développer la théorie statistique derrière Codetta, à écrire le programme, à le tester, puis à analyser les génomes. Il fonctionne en lisant le génome d’un organisme, puis en puisant dans une base de données de protéines connues pour produire un code génétique probable. Elle diffère des autres méthodes similaires en raison de l’échelle à laquelle elle peut analyser les génomes.
Shulgina a rejoint le laboratoire d’Eddy, spécialisé dans la comparaison des génomes, en 2016 après être venue lui demander conseil sur l’algorithme qu’elle concevait pour interpréter les codes génétiques.
Jusqu’à présent, personne n’a fait une étude aussi large pour les codes génétiques alternatifs.
“C’était formidable de voir de nouveaux codes, car pour tout ce que nous savions, Kate ferait tout ce travail et il n’y aurait pas de nouveaux codes à trouver”, a déclaré Eddy, qui est également un chercheur médical de Howard Hughes. Il a également noté le potentiel du système à utiliser pour assurer la précision des nombreuses bases de données qui contiennent des séquences de protéines.
« De nombreuses séquences de protéines dans les bases de données de nos jours ne sont que des traductions conceptuelles de la génomique. ADN séquences », a déclaré Eddy. «Les gens extraient ces séquences de protéines pour toutes sortes de choses utiles, comme de nouvelles enzymes ou de nouveaux outils d’édition de gènes et ainsi de suite. Vous aimeriez que ces séquences de protéines soient exactes, mais si l’organisme utilise un code non standard, elles seront traduites par erreur.
Les chercheurs disent que la prochaine étape du travail consiste à utiliser Codetta pour rechercher des codes alternatifs dans les virus, les eucaryotes et les génomes organellaires comme les mitochondries et les chloroplastes.
“Il y a encore beaucoup de diversité de vie où nous n’avons pas encore fait ce dépistage systématique”, a déclaré Shulgina.
Référence : « Un écran informatique pour des codes génétiques alternatifs dans plus de 250 000 génomes » par Yekaterina Shulgina et Sean R Eddy, 9 novembre 2021, eLife.
DOI : 10.7554 / eLife.71402