La bio-informatique appliquée au diagnostic moléculaire

Auteure : Sandra Therrien-Laperrière M.Sc et Valérie Hay M.Sc, Bio-informaticiennes, Laboratoire de diagnostic moléculaire, Institut de cardiologie de Montréal

La médecine personnalisée est un vaste sujet qui s’applique à divers axes de la médecine. L’objectif principal est d’obtenir une caractérisation fine de la condition des patients, afin d’aider au diagnostic, au pronostic et à la prise en charge des patients. L’utilisation de l’information génétique d’un patient joue un rôle majeur dans cette médecine de précision. Un domaine incontournable associé à la médecine personnalisée est sans contredit la bio-informatique qui joue un rôle essentiel dans son applicabilité.

La bio-informatique : un incontournable pour le traitement et l’analyse des données biologiques

La bio-informatique est, par définition, l’utilisation de l’informatique pour le traitement de données biologiques complexes. Au cours des deux dernières décennies, les avancées technologiques en sciences biologiques ont explosé, tant au niveau des instruments qu’au niveau du raffinement de l’analyse des résultats obtenus avec ces derniers. Pour en nommer que trois, des progrès spectaculaires ont été faits dans les domaines de la spectrométrie de masse, de l’imagerie médicale et du séquençage de nouvelle génération (SNG). Un facteur limitant commun à ces avancées est la génération et le traitement d’énormes quantités de données (plusieurs giga-octets à plusieurs téraoctets) qui sont impossibles à analyser par l’humain sans l’aide de puissants outils informatiques. Entre autres, la bio-informatique a permis le développement de puissants algorithmes d’apprentissage machine, une branche spécifique de l’intelligence artificielle. Ceux-ci permettent, par exemple, de prédire le phénotype de cellules individuelles par leur profil métabolique uniquement obtenu par spectrométrie de masse, afin de prédire leur résistance aux médicaments [1]. De plus, des algorithmes ont aussi été développés pour l’analyse de données d’imagerie qui ont permis d’améliorer significativement la détection de tumeurs ainsi que leur traitement, notamment, en radiothérapie [2]. L’apprentissage machine appliqué au domaine diagnostic est émergent et en effervescence. Toutefois, la précision et la sensibilité de ces algorithmes dans ce contexte restent à démontrer. Plusieurs questions éthiques doivent aussi être analysées, telle que, l’imputabilité lors d’erreurs diagnostiques [3]. C’est pourquoi, l’implantation de ces techniques pour une utilisation universelle en milieu diagnostique prendra certainement encore plusieurs années, voire décennies.

Contrairement à la spectrométrie de masse et à l’imagerie médicale, le SNG est une technologie qui a évolué très rapidement depuis le début des années 2000 et dont les coûts associés ont grandement diminué dans les années 2010 [4]. Le SNG permet notamment le séquençage de l’ADN et donc l’analyse du génome, qui est une source d’information fondamentale à la compréhension d’un nombre important de pathologies. De plus, les algorithmes utilisés pour analyser ce type de données ne requièrent pas absolument l’utilisation de l’apprentissage machine. Le grand défi du SNG a été de développer des algorithmes rapides, combinés à une puissance computationnelle suffisante, pour obtenir un temps d’analyse raisonnable, soit allant de quelques heures à quelques jours, ainsi que des pourcentages de sensibilité et précision optimales pour une application diagnostique.

L’analyse bio-informatique des séquences d’ADN

Le SNG de l’exome entier et du génome entier est aujourd’hui couramment utilisé en recherche. En diagnostic, les premières implantations du SNG ont été, notamment, en cancérologie et en cardiologie pour les maladies cardiovasculaires héréditaires. Il est important de noter que, mis à part les situations particulières où un séquençage complet de l’exome est recommandé, habituellement, seul un sous-ensemble de gènes (panel) pertinents à la condition suspectée sera la cible de l’analyse.

Plusieurs techniques existent pour créer une librairie de séquençage [3]. Les étapes décrites ci-dessous font référence à la technologie de séquençage par synthèse et doivent être accomplies en laboratoire :

1) Extraction de l’ADN du patient,

2) Préparation d’une librairie d’ADN où ce dernier est coupé en plusieurs milliers de morceaux de très petite taille et les gènes d’intérêts clinique sont sélectionnés puis amplifiés. Et finalement,

3) Immobilisation de la librairie sur une cellule à flux (flowcell) sur laquelle des millions d’amas de bouts d’ADN seront lus par l’instrument de séquençage à haut débit. La lecture de l’ADN se fait de la manière suivante : des nucléotides fluorescents (une couleur par nucléotide A, C, T et G) sont utilisés et sont excités par des lasers qui permettent à l’instrument de prendre des milliers d’images sur lesquelles les différentes bases (A, C, T et G) pourront être détectées.

Au total, plusieurs milliers de photos sont prises et chacune contient plus d’un million de nucléotides (voir Figure 1 pour un exemple de photo prise par un séquenceur de nouvelle génération). Ces photos sont ensuite transformées en plusieurs millions de suites nucléotidiques (AGC[…]CGA) d’environ 150 paires de bases de longueur nommées « read » ou lectures de séquençage, correspondant aux données brutes de séquençage.

Le traitement bio-informatique des données générées : pas une mince affaire

Les données de séquençage sont très volumineuses, elles sont généralement de l’ordre de quelques dizaines de gigaoctets à des téraoctets. Ainsi, le traitement de ces données nécessite l’utilisation de puissants outils informatiques. C’est ici que la profession de bio-informaticien entre en jeu. Pour le traitement de ces données, la première étape est d’aligner les lectures de séquençage contre le génome de référence, en l’occurrence, le génome humain, qui fait plus de 3 milliards de paires de bases. L’objectif de l’alignement est de recoller l’ensemble des lectures de séquençage pour reconstruire le génome du patient séquencé, ou dans notre cas, reconstruire les gènes d’intérêts cliniques ayant été ciblés. Cette étape est définitivement celle qui nécessite la plus grande puissance computationnelle. Lorsque l’alignement est terminé, l’étape cruciale suivante est d’identifier les variants, soit les mutations propres au patient qui comprend de façon générale: les polymorphismes mononucléotidiques ainsi que les petites et grandes délétions et insertions de nucléotides. Lorsque les variants ont été identifiés, l’annotation de chacun d’entre eux constitue la prochaine étape. L’annotation d’un variant correspond à la recherche de ses caractéristiques dans différentes bases de données (Annovar, ClinVar, 1000 genomes) et à la recherche de valeurs de prédiction à l’aide d’outils bio-informatiques qui tentent de prédire l’impact de ces variations au niveau de son produit protéique.

Des outils bio-informatiques permettant de faire chacune des étapes mentionnées ci-haut sont en développement depuis plus de deux décennies et sont arrivés à une certaine maturité [3]. Le bio-informaticien est alors responsable, entre autres, de la sélection des outils les plus pertinents, de leur mise en place, de leur validation, de leur vérification et finalement de leur utilisation quotidienne.

La bio-informatique et l’apprentissage machine : un combo à surveiller

Malgré cette certaine maturité de la technologie, plusieurs défis spécifiques à l’environnement clinique demeurent. Entre autres, l’interprétation approfondie des variants et la prédiction de leur pathogénicité demeurent fastidieuses. Dans un futur rapproché, la combinaison de la bio-informatique et de l’apprentissage machine (machine-learning) pourra apporter des éléments de réponse pour une prise en charge optimale par le professionnel de la santé [5].

Figure 1: image de séquençage d’une tuile de la cellule de flux. Les points blancs sont les amas de librairie. Sur cette image, seulement les nucléotides A sont lumineux. Ainsi, trois images supplémentaires sont prises pour les bases T, C et G.

Références

1 Liu R, Zhang G , Yang Z . Towards rapid prediction of drug-resistant cancer cell phenotypes: single cell mass spectrometry combined with machine learning. Chem Commun (Camb). 2019, Jan, 55(5):616-619

2 Hosny A, Parmar C, Quackenbush J, Schwartz LH, Aerts HJWL. Artificial intelligence in radiology. Nat Rev Cancer. 2018, Aug, 18(8):500-510.

3 Pereira R, Oliveira J, Sousa M. Bioinformatics and Computational Tools for Next-Generation Sequencing Analysis in Clinical Genetics J Clin Med. 2020 Jan 3 , 9(1):132.

4 Slatko BE, Gardner AF, Ausubel FM. Overview of Next-Generation Sequencing Technologies. Curr Protoc Mol Biol. 2018 Apr ,122(1):e59.

5 Sallah, S.R., Sergouniotis, P.I., Barton, S. et al. Using an integrative machine learning approach utilising homology modelling to clinically interpret genetic variants: CACNA1F as an exemplar. Eur J Hum Genet, 2020, Sept, 28 :1274–1282.

Indicateur Clinique