Auteure : Emmanuelle St-Germain, Ph.D, Résidente en biochimie clinique
Le séquençage de l’ADN est une des pierres angulaires de la science moderne. En effet, la résolution des séquences de diverses espèces a facilité l’étude des protéines, de la régulation génique et de la phylogénie, pour ne citer que quelques exemples.
En clinique, le séquençage joue un rôle de plus en plus important. En plus de permettre par exemple la détection précoce d’anomalies fœtales par l’analyse de l’ADN fœtal circulant ou la confirmation de maladies génétiques chez les enfants et les adultes et leur prise en charge rapide, le séquençage permet aussi de prédire un risque accru pour certaines maladies. De ce fait, une prévention et une surveillance active peuvent être effectuées chez les individus visés.
Le séquençage peut permettre de déterminer la cause de certains décès, de sensibiliser les membres d’une famille à risque ainsi que d’offrir du conseil génétique chez les couples à risque qui prévoient avoir un enfant. Le séquençage permet d’adapter certains traitements à notre génétique, par exemple en prédisant notre capacité à métaboliser certains médicaments (pharmacogénomique). Enfin, le séquençage peut permettre d’identifier les vulnérabilités de certains cancers pour lesquels des traitements spécifiques existent.
Petite histoire du séquençage
Les premières molécules à être séquencées furent les ARNs, à cause de leur nature plus simple et de leur plus petite taille. Le tout premier ARN séquencé, soit l’ARN de transfert de l’alanine de la levure, remonte à 19651 et fut suivi en parallèle par le développement par Fred Sanger d’une technique faisant usage de fragments de digestion partiels marqués par radioactivité et séparés en deux dimensions, par migration sur diverses membranes (acétate de cellulose en première dimension puis papier DEAE en seconde dimension) sous haut voltage 2. Cette technique a permis d’accroître le nombre de molécules séquencées rapidement.
Par la suite, l’utilisation de polymérases permettant l’ajout de nucléotides marqués fit son apparition 3-5, suivie par une migration sur gel de polyacrylamide permettant une meilleure résolution et une plus grande simplicité que la séparation en deux dimensions 6,7. La première révolution dans le domaine du séquençage eut toutefois lieu en 1977 grâce, une fois de plus, à Fred Sanger! Il introduisit l’usage des didéoxyribonucléotides (ddNTP) 8, des analogues des nucléotides composant l’ADN. Ces ddNTPs diffèrent par l’absence d’un groupement hydroxyle en 3’, normalement requis pour l’extension de la chaîne de nucléotides en formant un lien avec le groupement 5’ phosphate du dNTP suivant. Résultat : l’ajout d’un tel nucléotide force l’arrêt de la réaction et bloque le fragment à une taille donnée. Puisque ces nucléotides sont marqués et ajoutés en petite quantité, ils sont incorporés aléatoirement et permettent de générer des fragments de toutes les tailles possibles. Quatre réactions sont donc faites en parallèle, chacune avec un des quatre ddNTPs marqué radioactivement. Ces réactions migrent côte à côte sur un gel et l’autoradiographie permet de déterminer la séquence selon quelle bande est présente à chaque taille.
L’amélioration de cette technique a mené aux premiers séquenceurs automatisés : les fluorophores ont remplacé la radioactivité et la séparation par électrophorèse capillaire a remplacé les gels 9-13. Cette première génération de séquenceurs pouvait générer des séquences maximales d’environ 1000 paires de bases.
Une nouvelle génération de séquençage émergea un peu plus tard, surnommée le séquençage de « Nouvelle Génération ». Elle est basée sur l’idée d’immobiliser des séquences d’ADN sur un support solide et de procéder au séquençage en ajoutant un à un les nucléotides grâce à une polymérase 14. Les nucléotides ajoutés sont marqués par des fluorophores spécifiques à chaque nucléotide ce qui permet la détection et l’identification du nucléotide ajouté. La séquence peut alors être bâtie et détectée en temps réel. Cette technique permet le séquençage de millions de fragments d’ADN en parallèle et sa capacité de détection est basée sur une amplification PCR. Chaque fragment est amplifié d’une façon regroupée dans l’espace via sa liaison à des billes, ce qui permet d’obtenir un signal détectable 15. La technologie qui a pris la plus importante part du marché est celle d’Illumina™, qui immobilise l’ADN sur une cellule de mesure plutôt que sur des billes, via des oligonucléotides de capture et d’amplification. Des nucléotides couplés à des fluorophores sont employés pour la détection 16 : la position du fluorophore sur le nucléotide bloque temporairement la réaction de polymérisation ce qui permet la lecture du signal. Le fluorophore est ensuite clivé et le prochain cycle d’ajout de nucléotides peut être réalisé.
Cette technologie a permis une croissance extrêmement rapide des capacités de séquençage et une baisse concomitante des coûts associés. Il est intéressant de comparer la croissance des capacités de séquençage avec celles de l’informatique, qui ont été prédites de doubler aux deux ans par la loi de Moore dans les années 1960. Cette loi s’est avérée plutôt exacte et cette croissance exponentielle témoigne de l’avancement technologique fulgurant du monde moderne que nous connaissons. En ce qui a trait au séquençage, la croissance des capacités dépasse de beaucoup la loi de Moore : entre 2004 et 2010, ces capacités ont doublé aux cinq mois 17!
Voici quelques perspectives :
- Le premier génome complet d’un organisme vivant fut résolu en 199518.
- Séquencer le génome de la levure Cerevisiae a nécessité la collaboration de 74 laboratoires sur sept ans.
- La première version du génome humain fut achevée en 2003 après 13 ans d’efforts.
- Aujourd’hui, il est possible de séquencer un génome humain en quelques heures.
Quel est le problème du séquençage de nouvelle génération (NGS)?
Si la technologie de seconde génération est si exceptionnelle, on peut alors se demander à quoi bon développer une autre technologie? La réponse réside dans les limites du séquençage NGS :
- Il permet seulement la génération de courtes séquences d’au plus quelques centaines de paires de bases. Ces dernières ont alors besoin d’être assemblées grâce à des logiciels bio-informatiques complexes. Il est donc plus difficile de séquencer les régions répétées et de détecter des duplications et autres longs réarrangements puisque la courte taille des séquences ne permet pas d’en replacer l’ordre dans le génome ni la taille 19.
- C’est une technologie qui est devenue de plus en plus abordable mais qui demeure onéreuse.
- Elle requiert un long et complexe protocole de préparation des échantillons avant le séquençage : il faut générer les librairies d’ADN grâce au PCR avant leur analyse sur la cellule de mesure.
- Finalement, l’exactitude de cette technologie est supérieure à 99,5% chez Illumina™, mais il y a une sous-représentation de certaines régions AT-riches et GC-riches et une tendance à observer des erreurs de substitution, ce qui génère des faux positifs au niveau des polymorphismes nucléotidiques simples (SNPs) détectés 20. Un SNP est une variation génétique au niveau d’une base unique de l’ADN entre deux individus d’une même espèce.
Le séquençage 3e génération
Ces limitations ont poussé des équipes à développer de nouvelles méthodes de séquençage qui ont été désignées de 3e génération. Mais tout d’abord, qu’est-ce que le séquençage de 3e génération? Ce sont des méthodes qui permettent de générer de longues séquences et dont la détection se fait en temps réel 17,19. Cette technique permet de séquencer des molécules uniques sans avoir recours aux étapes d’amplification par PCR requises par les techniques actuelles : on évite donc les biais dus à l’amplification.
Il existe actuellement deux technologies différentes sur le marché. L’une d’elles, la plus innovante, se nomme « Nanopore » et consiste en un pore membranaire protéique sur lequel se fixe une seconde protéine permettant de guider l’ADN à séquencer à travers le pore tout en déroulant la double hélice (activité hélicase). Au sein du pore, un flot d’ions génère un courant électrique et lorsqu’un nucléotide le traverse, il affecte le courant électrique et le changement généré est spécifique à chaque nucléotide. Un détecteur permet donc de mesurer la variation du courant et d’identifier les nucléotides un par un. Étant donné qu’un nucléotide modifié affectera le courant différemment, il est possible d’étudier directement les modifications de l’ADN et de l’ARN (méthylation des adénosines, des cytosines, détection du BrDU, modifications épigénétiques de l’ARN).
Le plus petit appareil offert par Oxford Nanopore Technologies, nommé « MinIon », est d’une taille comparable à celle d’une clé USB et peut être branché dans un port USB, offrant une flexibilité d’usage sans précédent quant à son utilisation 19. Son coût de base de 1000$ le rend aussi très accessible financièrement. La plus longue molécule séquencée avec le Nanopore à ce jour contenait plus de deux millions de paires de bases! 21
Le talon d’Achille de cette technologie réside dans son taux d’erreurs élevé, entre 5 et 20% actuellement 19. Cette variation est causée par le type de molécule analysé et la préparation des échantillons. Les erreurs sont de type systématique et consistent principalement en des insertions et des délétions 19. Leur correction requiert donc de générer de courtes séquences additionnelles. Le développement rapide d’outils bio-informatiques et l’optimisation des protocoles de préparation d’échantillons permettent également de diminuer les taux d’erreurs.
La seconde technologie, nommée SMRT, est basée sur le séquençage de molécules uniques dans une plaque contenant de minuscules puits qui possèdent chacun une seule polymérase y étant fixée. Les molécules d’ADN sont circularisées et l’ajout d’un nucléotide fluorescent à la fois est détecté via le fond de chaque puits. Cette technologie permet aussi de détecter les bases modifiées de l’ADN car le temps d’incorporation du nucléotide est alors différent.
La gamme complète de possibilités offertes par ces techniques de 3e génération, basées sur un concept assez simple, est vertigineuse. Tout d’abord, il n’y a pas de limite à la longueur de la séquence possible pour le nanopore, à part la taille de la molécule elle-même. Cela simplifie grandement l’alignement de séquences nécessaire à l’assemblage d’un génome traditionnel 19,20. Avec les techniques actuelles, il est difficile de séquencer des régions répétées. Le séquençage de 3e génération facilite non seulement l’analyse de ces régions mais il rend aussi possible l’étude d’isoformes complets et la détection de larges réarrangements 19,20. Le séquençage de génomes humains complets a été réalisé par les deux technologies actuelles (SMRT et Nanopore) de troisième génération 22,23. Leur obtention a d’ailleurs permis de combler certaines séquences manquantes des génomes actuels et de déterminer le nombre de répétitions des télomères 22,23. Le séquençage direct de l’ARN est aussi devenu possible grâce à la méthode du Nanopore, ce qui évite les étapes de PCR dans la préparation des échantillons et permet d’obtenir de plus longues séquences 24. En bref, cette nouvelle technologie révolutionne plusieurs aspects du séquençage en permettant l’impossible. Certains entrevoient même l’adaptation de la technique afin de permettre le séquençage… des protéines!
Références :
- Holley RW, Apgar J, Everett GA, et al. Structure of a Ribonucleic Acid. Science 1965; 147(3664): 1462-5.
- Sanger F, Brownlee GG, Barrell BG. A two-dimensional fractionation procedure for radioactive nucleotides. J Mol Biol 1965; 13(2): 373-98.
- Wu R, Kaiser AD. Structure and base sequence in the cohesive ends of bacteriophage lambda DNA. J Mol Biol 1968; 35(3): 523-37.
- Padmanabhan R, Wu R. Nucleotide sequence analysis of DNA. IX. Use of oligonucleotides of defined sequence as primers in DNA sequence analysis. Biochem Biophys Res Commun 1972; 48(5): 1295-302.
- Sanger F, Donelson JE, Coulson AR, Kossel H, Fischer D. Use of DNA polymerase I primed by a synthetic oligonucleotide to determine a nucleotide sequence in phage fl DNA. Proc Natl Acad Sci U S A 1973; 70(4): 1209-13.
- Sanger F, Coulson AR. A rapid method for determining sequences in DNA by primed synthesis with DNA polymerase. J Mol Biol 1975; 94(3): 441-8.
- Maxam AM, Gilbert W. A new method for sequencing DNA. Proc Natl Acad Sci U S A 1977; 74(2): 560-4.
- Sanger F, Nicklen S, Coulson AR. DNA sequencing with chain-terminating inhibitors. Proc Natl Acad Sci U S A 1977; 74(12): 5463-7.
- Ansorge W, Sproat BS, Stegemann J, Schwager C. A non-radioactive automated method for DNA sequence determination. J Biochem Biophys Methods 1986; 13(6): 315-23.
- Ansorge W, Sproat B, Stegemann J, Schwager C, Zenke M. Automated DNA sequencing: ultrasensitive detection of fluorescent bands during electrophoresis. Nucleic Acids Res 1987; 15(11): 4593-602.
- Prober JM, Trainor GL, Dam RJ, et al. A system for rapid DNA sequencing with fluorescent chain-terminating dideoxynucleotides. Science 1987; 238(4825): 336-41.
- Swerdlow H, Gesteland R. Capillary gel electrophoresis for rapid, high resolution DNA sequencing. Nucleic Acids Res 1990; 18(6): 1415-9.
- Luckey JA, Drossman H, Kostichka AJ, et al. High speed DNA sequencing by capillary electrophoresis. Nucleic Acids Res 1990; 18(15): 4417-21.
- Hyman ED. A new method of sequencing DNA. Anal Biochem 1988; 174(2): 423-36.
- Margulies M, Egholm M, Altman WE, et al. Genome sequencing in microfabricated high-density picolitre reactors. Nature 2005; 437(7057): 376-80.
- Voelkerding KV, Dames SA, Durtschi JD. Next-generation sequencing: from basic research to diagnostics. Clin Chem 2009; 55(4): 641-58.
- Heather JM, Chain B. The sequence of sequencers: The history of sequencing DNA. Genomics 2016; 107(1): 1-8.
- Fleischmann RD, Adams MD, White O, et al. Whole-genome random sequencing and assembly of Haemophilus influenzae Rd. Science 1995; 269(5223): 496-512.
- Kono N, Arakawa K. Nanopore sequencing: Review of potential applications in functional genomics. Dev Growth Differ 2019; 61(5): 316-26.
- Goodwin S, McPherson JD, McCombie WR. Coming of age: ten years of next-generation sequencing technologies. Nat Rev Genet 2016; 17(6): 333-51.
- Payne A, Holmes N, Rakyan V, Loose M. BulkVis: a graphical viewer for Oxford nanopore bulk FAST5 files. Bioinformatics 2019; 35(13): 2193-8.
- Jain M, Koren S, Miga KH, et al. Nanopore sequencing and assembly of a human genome with ultra-long reads. Nat Biotechnol 2018; 36(4): 338-45.
- Chaisson MJ, Huddleston J, Dennis MY, et al. Resolving the complexity of the human genome using single-molecule sequencing. Nature 2015; 517(7536): 608-11.
- Garalde DR, Snell EA, Jachimowicz D, et al. Highly parallel direct RNA sequencing on an array of nanopores. Nat Methods 2018; 15(3): 201-6.