Multi colored DNA strand

L’identification des changements du nombre de copies : un défi analytique et bio-informatique – Partie II

Auteur: Benjamin Neveu, biochimiste clinique, DEPD, CSPQ, Institut de cardiologie de Montréal, Laboratoire de diagnostic moléculaire


 

Le séquençage parallèle à haut débit (SPHD) est un outil maintenant bien implanté dans les laboratoires diagnostiques. Cette technologie de pointe permet d’évaluer en simultané diverses altérations génétiques pouvant être d’intérêt clinique tant au niveau diagnostic, pronostique et thérapeutique. Un défi demeure dans la détection par NGS des changements du nombre de copies (Copy Number Variant; CNV) qui présente de nombreuses limitations. Voir la première partie de l’article en cliquant ici.

 

Une approche innovante validée

Une approche intéressante pour l’appel des CNV utilise un groupe contrôle fixe construit à partir de spécimens exempts de CNV ayant déjà été séquencés dans des conditions similaires (même protocole de préparation de librairies et même plateforme de séquençage). Tous les spécimens nouvellement séquencés sont donc comparés au même groupe contrôle. À l’inverse de la première approche de normalisation par série analytique (ou flowcell), cette approche a comme avantage de rendre les processus de laboratoire plus résilients à des impondérables techniques. Si par exemple une préparation de librairie complète de 12 spécimens est anormale et doit être reprise, les 36 autres spécimens de cette flowcell pourront toujours faire l’objet d’une recherche de CNV de qualité basée sur le groupe contrôle fixe. Cette méthode emploie généralement un nombre plus élevé de spécimens car aucune limitation technique n’y ait associé. Lorsque bien sélectionné, ce groupe contrôle est plus représentatif d’une utilisation en routine car il intègre l’ensemble de la variabilité normale attendue des différentes qualités d’ADN reçus et des différents lots de réactifs utilisés. Toutefois, ceci nécessite le séquençage de plusieurs spécimens avant de pouvoir être en mesure de faire la détection de CNV dans des spécimens cliniques. Le laboratoire doit pouvoir avoir accès à ces spécimens et un coût de séquençage substantiel est associé à la construction de ce groupe contrôle.

Afin d’évaluer et documenter l’impact de la nature du groupe contrôle sur la performance de l’identification de CNV, une série analytique de 36 spécimens a été analysée conjointement par ces deux approches (groupe contrôle flowcell-spécifique et groupe contrôle fixe). Pour le groupe contrôle fixe, cinq (5) itérations du nombre de spécimens (100, 150, 200, 415, 475) ont été testées. Tous les spécimens inclus dans le groupe initial se retrouvent dans le groupe subséquent (i.e. les 100 premiers spécimens se retrouvent tous dans le groupe de 150, ces 150 sont tous dans le groupe de 200, et ainsi de suite). Des 36 spécimens inclus, 27 ont un CNV attendu basé sur une analyse antérieure effectuée par un laboratoire diagnostic. De ces CNV, trois (3) sont des duplications et 24 sont des délétions. Dû à leur rareté, certains sont communs (mais proviennent de spécimens cliniques différents) ou se chevauchent (p.ex. délétions des exons 3 à 6 et 4 à 18 du gène LDLR). La taille minimale est d’un (1) exon (13 CNV, 48% de l’échantillonnage), tant pour les duplications que les délétions. La plus grande duplication couvre 7 exons, alors que la plus grande délétion en couvre 64. Dans la mesure du possible, il est important d’évaluer des duplications et des délétions, en plus de couvrir quelques tailles. Il est plus difficile d’identifier les duplications que les délétions, et les événements de plus petites tailles (1 seul exon) sont plus sujets aux faux-négatifs. L’évaluation de la performance est basée essentiellement sur les sensibilités et spécificités analytiques.

La sensibilité analytique fait référence à l’efficacité de la méthode à identifier un variant lorsque celui-ci est réellement présent dans le spécimen en évaluation. Ainsi, les sensibilités analytiques rapportées dans la Figure 4 sont le pourcentage de CNV correctement identifié (minimalement avec une partie de la région attendue correctement identifiée) sur un total de 27 CNV possibles.

 

Figure 4 : Sensibilité analytique de l’appel de CNV. La ligne horizontale orange représente la sensibilité analytique obtenue par l’approche flowcell-spécifique (82%) et en bleu, celle obtenue par l’approche du groupe contrôle fixe, en fonction du nombre de spécimens inclus dans sa conception (100, 150, 200, 415, 475).

La sensibilité analytique pour l’approche du groupe contrôle fixe varie grandement en fonction de la composition de celui-ci. Le plus petit groupe évalué (n =100) a une sensibilité analytique inférieure (74%) à celle obtenue lors de la validation avec l’approche flowcell-spécifique (82%). À l’inverse, les groupes contenant 200, 415 et 475 spécimens possèdent une meilleure sensibilité analytique, avec 89, 96 et 96%, respectivement. Dans les conditions testées, la sensibilité atteint un plafond lorsque 415 spécimens ou plus sont utilisés (100% en considérant que le seul faux-négatif obtenu semble être un artéfact; aucun CNV réel attendu dans cet échantillon). Le groupe contrôle de 150 spécimens obtient la même sensibilité (82%) que l’approche flowcell-spécifique sans qu’il s’agisse des mêmes faux-négatifs.

La spécificité analytique fait quant à elle référence à l’efficacité de la méthode à ne pas identifier de variants lorsque ceux-ci sont réellement absents dans le spécimen en évaluation. Pour calculer la spécificité analytique de la détection des CNV, la plus petite unité rapportable est d’un (1) exon. Avec les régions couvertes par l’essai SPHD employé pour générés les données de séquençage, ce sont 8189 exons qui ont le potentiel d’être rapportées comme un CNV. En fonction du nombre total de CNV faux-positifs identifiés pour chaque spécimen de la série (n = 36), la spécificité analytique moyenne associée est calculée pour chaque groupe contrôle (Figure 5).

 

Figure 5 : Spécificité analytique de l’appel de CNV. La ligne horizontale orange représente la spécificité analytique obtenue par l’approche flowcell-spécifique (90,9094%) et en bleu, celle obtenue par l’approche du groupe contrôle fixe, en fonction du nombre de spécimens inclus dans sa conception (100, 150, 200, 415, 475).

La tendance est similaire à celle observée pour la sensibilité analytique, où l’augmentation du nombre de spécimens inclus dans le groupe contrôle fixe améliore l’efficacité de l’analyse. Comme pour la sensibilité, la spécificité est plus faible (99,8806%; en moyenne 9,78 CNV faux-positifs par spécimen) avec le groupe fixe de 100 spécimens qu’avec la normalisation flowcell-spécifique (99,9094%, en moyenne 7,42 CNV faux-positifs par spécimen), et supérieure avec les groupes de 200 (99,9450%), 415 (99,9735%) et 475 échantillons (99,9742%, en moyenne 2,11 CNV faux-positifs par spécimen). Pour le groupe de 150 échantillons, la spécificité analytique est supérieure (99,9216%) à celle de l’approche flowcell-spécifique, alors que la sensibilité analytique était identique (82%, Figure 4). Avec des groupes contrôles fixes établis avec ≥ 150 spécimens, la spécificité analytique est améliorée par rapport à l’approche flowcell-spécifique. Plus le nombre de spécimens inclus dans la normalisation est élevé, meilleure est la spécificité. Contrairement à la sensibilité, il n’est pas possible de déterminer si la spécificité maximale pour la détection des CNV a été atteinte. Ceci dit, il semblerait que l’ajout de spécimens additionnels a un impact de moins en moins prononcé à partir d’environ 400 où un plateau semble être obtenu (Figure 5). En ce sens, l’ajout de 50 spécimens entre 100 et 150 entraine un gain considérable sur la spécificité (99,8806% et 99,9216% respectivement; gain de 0,0410%), alors qu’un ajout similaire de 60 spécimens entre 415 et 475 entraine un gain minimal (99,9735% et 99,9742% respectivement; gain de 0,0007%). Ceci correspond en moyenne à une diminution de CNV faux positifs identifiés par échantillon de 3,36 et 0,06, respectivement.

 

Une méthode pratique, fonctionnelle et efficace, malgré certaines limitations

Avec l’approche de séquençage utilisée, l’appel de CNV est plus sensible et spécifique en utilisant un groupe contrôle fixe lorsque celui-ci est composé d’au moins 150 spécimens représentatifs des données de séquençage obtenues dans les conditions habituelles. Sous ce seuil, un groupe contrôle flowcell-spécifique est plus performant. Dans ces conditions, ce groupe contenait 35 spécimens. Ainsi, pour un nombre de spécimen égal, l’approche par flowcell est plus efficace, car un groupe contrôle composé de 35 spécimens flowcell-spécifiques performent mieux que 100 spécimens fixes issus de séquençages différents. Ceci s’explique par la correction des effets de lots (« batch effect ») associés aux séries analytiques de SPHD en utilisant la normalisation par flowcell. Toutefois, le nombre de spécimens pouvant être utilisés comme groupe contrôle flowcell-spécifique est limité par la capacité à multiplexer. Pour augmenter la capacité de multiplexage sans changer le contenu et la profondeur de couverture attendue, il est nécessaire d’augmenter la capacité de séquençage de la plateforme de séquençage utilisée. Plus la capacité de séquençage offert par la plateforme (et/ou la flowcell) est élevée, plus la capacité théorique de multiplexage est grande. Cependant, l’augmentation du nombre de spécimen multiplexés peut entraîner deux nouveaux enjeux : un délai plus important pour les accumuler et ainsi une augmentation des temps-réponses, et un risque augmenté d’avoir des spécimens porteurs de CNV, lesquels seront utilisés à tort comme spécimens « références » dans l’identification de CNV de tous les autres spécimens de la série. Ce dernier enjeu pourrait être négligeable en raison de la rareté des CNV.

Les calculs de la sensibilité et de la spécificité analytique font intervenir les notions de faux-négatifs et faux-positifs, respectivement. Pour le calcul de la spécificité, tous les CNV identifiés autre que le CNV attendu pour un spécimen donné sont considérés comme étant des faux-positifs. Ainsi, cette spécificité est le minimum possible car elle est calculée avec la prémisse que tous les CNV identifiés (excluant le CNV attendu) sont des faux-positifs. Certains de ceux-ci pourraient être réels mais il n’est pas possible de les discriminer avec certitude sans analyses de confirmation supplémentaires. Si certains de ces CNV sont réels (vrais positifs), le nombre de faux-positifs diminuerait et augmenterait ainsi la spécificité analytique. L’utilisation de spécimens hautement caractérisés (où la nature génétique du spécimen est robuste et confirmée par plusieurs approches complémentaires) n’est pas possible; trop peu de spécimens (et de CNV différents) sont disponibles.

Les données de sensibilité et de spécificité analytiques peuvent être modulées grandement par la nature des CNV. En ce sens, les CNV plus grands sont généralement plus facilement identifiables par les analyses bio-informatiques, et ce peu-importe la nature des groupes contrôles. Les différences entre les deux approches de normalisation évaluées dans la présente étude, tout comme l’impact des itérations du nombre de spécimens inclus dans la composition des groupes contrôles fixes, auraient pu être moins prononcés si une proportion plus importante de larges CNV (2 exons ou plus) avaient été inclus. Ceux-ci auraient probablement été rapportés correctement avec un groupe contrôle fixe composé d’un moins grand nombre de spécimens. Lorsque le nombre de spécimens et la taille des CNV le permettent, il est intéressant de calculer les sensibilité et spécificité analytiques en fonction du type (délétion ou duplication) et l’étendu du CNV (p.ex. 1 exon, ≥ 2 exons, ≥ 5 exons). Avec l’échantillonnage actuel, cette granularité ne serait pas informative car chaque catégorie serait supportée par trop peu de spécimens.

Bien qu’informatives, les conclusions tirées de cette étude sont sujettes à une limitation importante, soit l’utilisation d’un nombre restreint de spécimens positifs. Les CNV sont des altérations génétiques très rares et donc accumuler un nombre significatif de spécimens positifs est un défi majeur. De plus, ces CNV doivent être dans les gènes ciblés par le séquençage. Pour un séquençage d’exomes ou de génomes, ceci a un impact plus faible, mais pour du séquençage ciblé, ceci s’ajoute aux contraintes. La même approche pourrait être employée en utilisant plus de spécimens afin de confirmer ces résultats. Le seuil de 400 spécimens requis pour la conception d’un groupe contrôle fixe nécessaire afin d’atteindre un plateau de performance analytique pour la détection de CNV à partir de données SPHD pourrait ainsi être raffiné. À noter que la redondance (ou le chevauchement) de certains CNV inclus dans la présente analyse pourrait avoir biaisé négativement la performance de l’approche flowcell-spécifique, notamment sur sa capacité à identifier les vrais positifs (rapportés ici comme de faux-négatifs; sensibilité analytique). En effet, l’inclusion des mêmes CNV (ou partageant une région commune) peut altérer la normalisation et la capacité à reconnaître le CNV du spécimen en évaluation si ce même CNV se retrouve aussi dans un autre spécimen du groupe contrôle flowcell-spécifique. Bien que ceci n’ait aucun effet sur les résultats obtenus des itérations du groupe contrôle fixe, la performance du groupe contrôle flowcell-spécifique pourrait être meilleure dans une utilisation en routine (où la probabilité d’observer un même CNV dans plusieurs spécimens de la même série analytique est infinitésimale) que celle définie dans cette étude.

Finalement, d’un point de vue pratique et fonctionnel au laboratoire, il est possible de mettre en place le groupe contrôle flowcell-spécifique pour initier le séquençage et l’appel de CNV sans délai, pour ainsi commencer à accumuler des données d’échantillons cliniques représentatifs en vue de construire le groupe contrôle fixe qui servira par la suite. L’approche par groupe contrôle fixe performe mieux pour l’appel de CNV, mais uniquement si ce dernier est construit à partir d’un nombre substantiel de spécimens ayant été séquencés dans les mêmes conditions. Cette approche en deux étapes permettra de diminuer les coûts de développement. Le nombre de  spécimens requis pour la mise en place d’un groupe contrôle fixe nécessaire à l’atteinte de la performance analytique maximale pourrait être différent de 400 échantillons par l’utilisation de technologies (fournisseur, plateforme) ou des méthodologies (séquençage ciblé ou génome) de séquençage différentes.