Des régions cachées révélées dans la première séquence complète d’un génome humain

Avatar photo
Human Genome Genetics DNA Concept

Concept d'ADN génétique du génome humain

Les parties du génome humain que l’on peut maintenant étudier pour la première fois sont importantes pour comprendre les maladies génétiques, la diversité humaine et l’évolution.

La première séquence véritablement complète d’un génome humain, couvrant chaque chromosome d’un bout à l’autre sans aucune lacune et sans précédent accuracy, is now accessible through the UCSC Genome Browser and is described in six papers published today (March 31, 2022) in Science.

Since the first working draft of a human genome sequence was assembled at UC Santa Cruz in 2000, genomics research has led to enormous advances in our understanding of human biology and disease. Nevertheless, crucial regions accounting for some 8% of the human genome have remained hidden from scientists for over 20 years due to the limitations of DNA sequencing technologies.

Karen Miga, assistant professor of biomolecular engineering at UC Santa Cruz, and Adam Phillippy at the National Human Genome Research Institute (NHGRI) organized an international team of scientists—the Telomere-to-Telomere (T2T) Consortium—to fill in the missing pieces. Their efforts have now paid off.

Le nouveau génome de référence, appelé T2T-CHM13, ajoute près de 200 millions de paires de bases de nouvelles séquences d’ADN, dont 99 gènes susceptibles de coder pour des protéines et près de 2 000 gènes candidats qui doivent être étudiés plus avant. Il corrige également des milliers d’erreurs structurelles dans la séquence de référence actuelle.

Les lacunes maintenant comblées par la nouvelle séquence comprennent l’intégralité des bras courts de cinq chromosomes humains et couvrent certaines des régions les plus complexes du génome. Il s’agit notamment de séquences d’ADN hautement répétitives que l’on trouve dans et autour de structures chromosomiques importantes telles que les télomères aux extrémités des chromosomes et les centromères qui coordonnent la séparation des chromosomes répliqués pendant la division cellulaire. La nouvelle séquence révèle également des duplications segmentaires qui n’avaient pas été détectées auparavant. Il s’agit de longues portions d’ADN qui sont dupliquées dans le génome et qui sont connues pour jouer un rôle important dans l’évolution et les maladies.

“Ces parties du génome humain que nous n’avons pas été en mesure d’étudier pendant plus de 20 ans sont importantes pour notre compréhension du fonctionnement du génome, des maladies génétiques, de la diversité humaine et de l’évolution”, a déclaré Miga.

Chronologie du séquençage du génome humain

Il a fallu presque deux fois plus de temps pour terminer les derniers 8% du génome humain que pour séquencer les premiers 92%. Les nouvelles technologies de laboratoire et de calcul ont finalement permis à Miga et à ses collègues de surmonter des obstacles tels que les séquences d’ADN hautement répétitives afin de combler les lacunes restantes. Crédit : NHGRI

Un grand nombre des régions nouvellement révélées ont des fonctions importantes dans le génome, même si elles ne comprennent pas de gènes actifs.

“Il y a un avantage profond à voir le génome entier comme un système complet. Cela nous met en position de démêler le fonctionnement de ce système”, a déclaré David Haussler, directeur de l’Institut de génomique de l’UC Santa Cruz. “Nous avons acquis une énorme compréhension de la biologie et des maladies humaines en disposant d’environ 90 % du génome humain, mais de nombreux aspects importants restaient cachés, hors de portée de la science, parce que nous ne disposions pas de la technologie nécessaire pour lire ces parties du génome. Aujourd’hui, nous pouvons nous tenir au sommet de la montagne et voir tout le paysage en dessous et obtenir une image complète de notre patrimoine génétique humain.”

La séquence du génome T2T, qui représente le génome CHM13 terminé plus le chromosome Y T2T récemment terminé (CHM13 comprend un chromosome X mais pas un chromosome Y), est maintenant un nouveau génome de référence dans le navigateur de génome UCSC. La séquence T2T est entièrement annotée dans le navigateur, offrant ainsi aux scientifiques un moyen efficace d’accéder à une multitude d’informations associées aux gènes et à d’autres éléments du génome et de les visualiser.

“Nous voulions présenter l’information d’une manière accessible et familière aux chercheurs afin qu’ils puissent commencer à s’en servir et à utiliser tous les outils et les ressources que le navigateur fournit”, a expliqué Miga.

Karen Miga

Karen Miga, professeur adjoint de génie biomoléculaire à l’université de Santa Cruz, a codirigé le consortium Telomere-to-Telomere (T2T), qui a publié le premier assemblage complet et sans faille d’une séquence de génome humain. Crédit : Photo de Carolyn Lagattuta

Le nouveau génome de référence T2T viendra compléter le génome de référence humain standard, connu sous le nom de Genome Reference Consortium build 38 (GRCh38), qui trouve son origine dans le projet du génome humain financé par des fonds publics et qui a été continuellement mis à jour depuis la première version en 2000.

“Nous ajoutons un deuxième génome complet, et il y en aura d’autres ensuite”, a expliqué Haussler. “La prochaine phase consiste à penser que la référence du génome de l’humanité n’est pas une séquence génomique unique. C’est une transition profonde, le signe avant-coureur d’une nouvelle ère dans laquelle nous finirons par saisir la diversité humaine de manière impartiale.”

Le Consortium T2T s’est maintenant associé au Consortium de référence du pangénome humain, qui vise à créer une nouvelle “référence du pangénome humain” basée sur les séquences complètes du génome de 350 individus.

“La pangénomique consiste à saisir la diversité de la population humaine, et c’est aussi…Il s’agit de s’assurer que nous avons correctement saisi l’ensemble du génome”, a déclaré Benedict Paten, professeur associé de génie biomoléculaire à l’UCSC, coauteur des articles de T2T et responsable de l’effort de pangénomique. “Si nous ne disposons pas d’une carte de ces régions du génome difficiles à séquencer sur plusieurs individus, nous passons à côté d’une grande partie de la variation présente dans notre population. T2T nous permet d’examiner des centaines de génomes de télomère en télomère. Cela va être génial !”

Le génome de référence standard (GRCh38) ne représente pas un individu en particulier, mais a été assemblé à partir de plusieurs donneurs. Leur fusion en une seule séquence linéaire a créé des structures artificielles dans la séquence. Le projet du pangénome humain permettra de comparer les génomes nouvellement séquencés à de multiples génomes complets représentant un éventail d’ascendances humaines.

Un résultat important de la nouvelle séquence T2T est de permettre des évaluations plus précises des variants génétiques. Lorsque les génomes humains sont séquencés dans le cadre d’études cliniques visant à comprendre le rôle des variantes génétiques dans les maladies ou à étudier la diversité génétique au sein des populations humaines et entre elles, ils sont presque toujours analysés en alignant les résultats du séquençage avec le génome de référence à des fins de comparaison. L’équipe chargée des variants T2T a documenté des améliorations majeures dans l’identification et l’interprétation des variants génétiques en utilisant la nouvelle séquence T2T par rapport au génome de référence humain standard.

“Le nouveau génome humain est incroyablement précis au niveau des bases, ce qui nous a permis de signaler des centaines de milliers de variantes qui avaient été mal interprétées en les mettant en correspondance avec la référence standard. Beaucoup de ces nouvelles variantes se trouvent dans des gènes connus pour leur contribution à la maladie. Nous pouvons maintenant les repérer parce que nous avons un génome de référence plus complet et plus précis”, a déclaré Miga.

La recherche de Miga s’est concentrée sur l’ADN satellite, les longs tronçons de séquences d’ADN répétitives que l’on trouve principalement dans et autour des télomères et des centromères. Les centromères séparent chaque chromosome en un bras court et un bras long et maintiennent ensemble les chromosomes dupliqués avant la division cellulaire.

“Les centromères jouent un rôle essentiel dans la ségrégation des chromosomes au cours de la division cellulaire, et nous savons depuis quelque temps déjà qu’ils sont déréglés dans toutes sortes de maladies humaines. Mais nous n’avons jamais été en mesure de les étudier au niveau de la séquence”, a déclaré Miga. “La plus grande partie des nouvelles séquences ajoutées à la référence, et de loin, sont des ADN satellites de centromères. Pour la première fois, nous pouvons étudier ‘base par base’ les séquences qui définissent le centromère et nous pouvons commencer à comprendre son fonctionnement.”

Les technologies de séquençage de l’ADN “long-read”, telles que le séquençage nanopore, dont l’UC Santa Cruz a été le pionnier.étaient des outils essentiels pour le Consortium T2T. Deux ensembles de données de séquençage à long terme – des lectures de haute fidélité (données HiFi des systèmes PacBio) et des lectures extrêmement longues qui atteignent régulièrement des longueurs supérieures à 100 000 paires de bases (données ultra-longues des dispositifs Oxford Nanopore) – ont permis aux chercheurs de T2T de couvrir des régions répétitives et de développer des stratégies pour garantir un assemblage très précis. Miten Jain et d’autres chercheurs de l’Institut de génomique de l’UCSC ont contribué à la mise en place de la protocole de lecture ultra-longue.

L’UC Santa Cruz a une longue histoire de leadership dans le domaine de la génomique, à commencer par une réunion séminale en 1985 pour discuter du séquençage du génome humain, organisée à l’UCSC par Robert Sinsheimer, alors chancelier. Haussler a été invité à se joindre au projet public du génome humain en 1999, et son équipe a joué un rôle crucial dans son achèvement. À l’époque, James Kent, aujourd’hui chercheur scientifique à l’Institut de génomique et directeur du projet Genome Browser de l’UCSC, était un étudiant diplômé de l’UCSC. Il a écrit le code qui a permis d’assembler la première ébauche du génome humain à partir des données obtenues par le Consortium international de séquençage du génome humain, et l’UCSC a mis cette ébauche en ligne pour que le monde entier puisse y avoir accès. Kent a ensuite créé l’UCSC Genome Browser, qui reste la plate-forme la plus utilisée pour accéder au génome humain.

L’Institut de génomique de l’UC Santa Cruz est toujours à la pointe de la recherche génomique et joue un rôle de premier plan dans les efforts de T2T et de pangénomique.

“Le travail de T2T reflète les efforts soutenus et dévoués de nombreuses personnes à l’UC Santa Cruz et ailleurs. Karen Miga a travaillé dur pour obtenir de véritables séquences de centromères dans les assemblages du génome humain pendant une décennie, et cela a finalement porté ses fruits”, a déclaré Kent. “Je suis très enthousiaste à l’idée de voir ce travail combiné aux efforts visant à obtenir des séquences de télomère à télomère d’autres ancêtres humains. Nous progressons rapidement vers une représentation vraiment complète du génome humain.”

Référence : “La séquence complète d’un génome humain” par Sergey Nurk, Sergey…Koren, Arang Rhie, Mikko Rautiainen, Andrey V. Bzikadze, Alla Mikheenko, Mitchell R. Vollger, Nicolas Altemose, Lev Uralsky, Ariel Gershman, Sergey Aganezov, Savannah J. Hoyt, Mark Diekhans, Glennis A. Logsdon, Michael Alonge, Stylianos E. Antonarakis, Matthew Borchers, Gerard G. Bouffard, Shelise Y. Brooks, Gina V. Caldas, Nae-Chyun Chen, Haoyu Cheng, Chen-Shan Chin, William Chow, Leonardo G. de Lima, Philip C. Dishuck, Richard Durbin, Tatiana Dvorkina, Ian T. Fiddes, Giulio Formenti, Robert S. Fulton, Arkarachai Fungtammasan, Erik Garrison, Patrick G. S. Grady, Tina A. Graves-Lindsay, Ira M. Hall, Nancy F. Hansen, Gabrielle A. Hartley, Marina Haukness, Kerstin Howe, Michael W. Hunkapiller, Chirag Jain, Miten Jain, Erich D. Jarvis, Peter Kerpedjiev, Melanie Kirsche, Mikhail Kolmogorov, Jonas Korlach, Milinn Kremitzki, Heng Li, Valerie V. Maduro, Tobias Marschall, Ann M. McCartney, Jennifer McDaniel, Danny E. Miller, James C. Mullikin, Eugene W. Myers, Nathan D. Olson, Benedict Paten, Paul Peluso, Pavel A. Pevzner, David Porubsky, Tamara Potapova, Evgeny I. Rogaev, Jeffrey A. Rosenfeld, Steven L. Salzberg, Valerie A. Schneider, Fritz J. Sedlazeck, Kishwar Shafin, Colin J. Shew, Alaina Shumate, Ying Sims, Arian F. A. Smit, Daniela C. Soto, Ivan Sovic, Jessica M. Storer, Aaron Streets, Beth A. Sullivan, Françoise Thibaud-Nissen, James Torrance, Justin Wagner, Brian P. Walenz, Aaron Wenger, Jonathan M. D. Wood, Chunlin Xiao, Stephanie M. Yan, Alice C. Young, Samantha Zarate, Urvashi Surti, Rajiv C. McCoy, Megan Y. Dennis, Ivan A. Alexandrov, Jennifer L. Gerton, Rachel J. O’Neill, Winston Timp, Justin M. Zook, Michael C. Schatz, Evan E. Eichler, Karen H. Miga et Adam M. Phillippy, 31 mars 2022, Science.
DOI : 10.1126/science.abj6987

Miga est l’un des auteurs correspondants de l’article principal. Science article, “La séquence complète d’un génome humain”, avec Adam Phillippy du NHGRI et Evan Eichler de l’University of Washington. She is also a co-corresponding author of the papers on “Complete genomic and epigenetic maps of human centromeres” and “Epigenetic patterns in a complete human genome,” and a coauthor of the papers on “Segmental duplications and their variation in a complete human genome,” “A complete reference genome improves analysis of human genetic variation,” and “From telomere to telomere: the transcriptional and epigenetic state of human repeat elements.”

Other researchers at the UC Santa Cruz Genomics Institute who are coauthors of the papers include Benedict Paten, Mark Diekhans, Erik Garrison (now at University of Tennessee Health Science Center), Marina Haukness, Miten Jain, and Kishwar Shafin. This work was supported by the National Institutes of Health.

Related Posts