Aller au contenu

L'analyse RNAseq - Cours

Introduction

Toutes les cellules, à l'exception de quelques virus (rétrovirus tel que le VIH), sont constituées d'ADN. L'ADN contient l'information génétique. Le séquençage de l'ADN donne la possibilité de connaître l'enchaînement des nucléotides constitutifs d'un fragment d'ADN donné. L'ensemble du matériel génétique, l'ADN, présent dans un organisme constitue le génome.

Le génome comporte des séquences codantes et des séquences non codantes. Les séquences codantes présentes sur l'ADN codent pour les protéines. Afin de passer d'une séquence codante à une protéine, en d'autres termes exprimer un gène, deux mécanismes biologiques sont mis en jeu : la transcription et la traduction.

La transcription consiste en la synthèse d'une molécule d'ARN à partir d'une molécule d'ADN. Contrairement à l'ADN, l'ARN est généralement simple brin. Les ARNs synthétisés sont complémentaires de leurs matrices d'ADN. Il existe différents types d'ARNs dont les ARN messagers (ARNm) qui par le biais de modifications post-transcriptionnelles, tel que l'épissage alternatif dans le cas des eucaryotes, et du mécanisme de traduction sont traduits en protéines.

L'épissage est un processus par lequel un ARN tout juste transcrit, ou pré-ARN, subit des étapes de coupures et de ligatures qui conduisent à l'élimination de certaines régions non codantes, les introns, présents dans l'ADN. Après épissage du pré ARN, un ARNm est obtenu dans lequel seul les régions codantes, les exons, sont conservées. Les exons sont soit tous conservés dans l'ARNm soit ciblés en vue de leur élimination suivant diverses combinaisons qui mèneront à la création d'ARNm variés donnant naissance à différentes formes de protéines issues d'un même gène, les isoformes.

L'ensemble des transcrits, c'est-à-dire les molécules d'ARNs, dans une cellule ou une population de cellules forme le transcriptome. Dans ce cours, le transcriptome ne désignera pas l'ensemble des ARNs mais simplement l'ensemble des ARN messagers présents dans une cellule ou une population de cellules.

Pour un organisme donnée, le transcriptome n'est pas identique dans toutes les cellules à la différence du génome qui lui l'est. L'expression des gènes n'est donc pas homogène. Des techniques tels que le séquençage à ARN, le RNA-seq, et les puces à ADN peuvent être utilisées pour déterminer et mesurer les éléments du transcriptome présents dans un échantillon biologique à un moment donné et dans une condition donnée.

Afin de conclure quant aux niveaux d'expression des gènes, les données bruts issues des techniques sont soumises à une analyse bioinformatique.

Lors de ce cours, deux techniques de mesure de l'expression des gènes seront présentées ainsi que le principe de l'analyse bioinformatique des données issues de la technique RNA-seq pour la mesure de l'expression des gènes, l'analyse différentielle et l'assemblage de novo du transcriptome.

Techniques de mesure de l'expression des gènes

Puces à ADN

Les puces à ADN rendent possible la mesure de l'expression de plusieurs gènes simultanément à un moment donné et dans un état donné par rapport à un échantillon de référence. Les puces sont de petites surfaces de verre, de silicium ou de plastique dans laquelle se trouve un ensemble de molécules d'ADN connues obtenu par synthèse ou amplifcation, les sondes. Les sondes sont fixées par paquets et en rangées ordonnées de points.

Le principe de la puce à ADN repose sur la propriété que possède l'ADN sous forme simple brin de s'hybrider avec un brin qui lui est complémentaire. Il est donc disposé sur les puces à ADN des ADN complémentaires (ADNc), les cibles, obtenus à partir d'ARNm d'un transcriptome par la technique de transcription inverse. Dans le cas où il y a complémentarité entre sondes et cibles, une hybridation se forme. L'hybridation sondes/cibles reflète alors les gènes exprimés. Comme les cibles sont marquées par fluorescence, un signal lumineux est généré après hybridation. L'intensité lumineuse d'un point est proportionnelle à la quantité de cibles hybridées à cet endroit. Le niveau de fluorescence est donc un indicateur du niveau d'expression des gènes.

Pour réaliser la mesure de l'expression des gènes, les ARNm sont extraits des cellules d'intérêts et des cellules de références et sont, parfois, amplifiés. L'amplification permet d'obtenir une quantité suffisante de matériel pour la technique. Les deux échantillons d'ARNm sont convertis en ADNc. Les ADNc sont ensuite marqués par fluorescence dans une couleur spécifique selon leur échantillon de provenance et mis en contact avec la puce. Après lavage, afin d'enlever les ADNc qui ne se sont pas hybridés avec les sondes, la puce est scannée. Une fois toutes ces étapes accomplies, une image est produite où des points de couleurs sont visibles. Selon que l'expression d'un gène est plus élevée dans un échantillon plutôt que dans l'autre, le point apparaîtra de couleur spécifique à l'échantillon. Dans le cas où l'expression du gène est égale dans les deux échantillons, le point apparaîtra dans une couleur intermédiaire de celles correspondantes aux échantillons.

RNA-seq

Le RNA-seq, où séquençage à ARN, identifie et quantifie les ARNm présents dans un échantillon à un moment donné et dans un état donné. Cette technique se base sur le séquençage des ARNm et permet, selon le protocole, d'assembler un transcriptome.

La première étape du RNA-seq consiste à enrichir la fraction d'ARNs d'intérêts, les ARNm. Pour ce faire, les ARNs totaux sont isolés des cellules à l'aide d'une nucléase qui dégrade l'ADN, la désoxyribonucléase. Dans le cas d'un organisme eucaryote, les ARNs totaux sont ensuite mis en contact avec un substrat possédant des oligonucléotides polyT, c'est-à-dire des fragments d'ADN courts et simples brins uniquement constitués de nucléotides T. Seuls les ARNm matures, soit les ARNm ayant subit des modifications post-transcriptionnelles, s'hybrident avec le substrat car ils possèdent une extrémité constituée uniquement de plusieurs nucléotides A : la queue polyA. Dans le cas d'un organisme procaryote, les ARNm ne possèdent pas de pas de queues polyA. De ce fait, pour enrichir la fraction d'ARNm, les ARN ribosomiques (ARNr) sont déplétés grâce à leur capture par des sondes complémentaires liées à un substrat.

Une fois les ARNm extraits, ceux-ci sont fragmentés puis convertis en ADNc doubles brins. Si la méthode de déplétion à été utilisée, la fragmentation est suivie d'une sélection des fragments selon la taille. Lors de la conversion, la synthèse du premier brin d'ADNc, par la technique de transcription inverse, peut être réalisée soit à partir d'une petite séquence d'ADN, une amorce, constituée uniquement de nucléotides T complémentaires de la queue polyA soit à partir d'une amorce aléatoire complémentaire au brin du fragment d'ARNm. Afin de synthétiser le deuxième brin d'ADNc, le brin du fragment d'ARNm hybridé au premier brin d'ADNc est hydrolysé et une amorce aléatoire complémentaire du premier brin d'ADNc est ajoutée.

Enfin, les fragments d'ADNc sont pourvus d'adaptateurs, qui sont de courtes séquences dont l'enchaînement des nucléotides est connu et qui vont servir dans la fixation des ADNc sur la plaque du séquenceur, puis amplifiés avant soumission au séquençage.

Au final, des lectures (reads), de tailles variables selon le type de séquenceur choisi, sont obtenues. Pendant l'étape de séquençage des ADNc, il est possible de recourir au single-end ou au paired-end. Le séquençage single-end consiste à séquencer les fragments à partir d'une seule extrémité à la différence du séquençage paired-end où les fragments sont séquencés à partir des deux extrémités. Dans le cas où le paired-end est employé, la distance moyenne fixe entre les reads étant connue, l'analyse RNA-seq dans un contexte de mesure de l'expression des gènes sera facilitée car cette information sera utilisée pour localiser avec plus de précision les fragments dans les régions de faible complexité, c'est-à-dire des régions contenant des répétitions.

Les étapes du protocole RNA-seq peuvent impacter les résultats. Durant l'enrichissement de la fraction d'ARNm, selon l'organisme étudié, soit les ARNm sont sélectionnés soit les ARNr sont déplétés. Dans les deux cas, il est important de souligner que les ARNr sont mis de côté. Ceux-ci représentent 90% des ARNs totaux dans une cellule et donc, s'ils n'étaient pas écartés, couvriraient les données des ARNm qui ne constituent qu'une petite fraction des ARNs totaux.

L'étape suivante, la fragmentation de l'ARNm, permet de réduire les biais en 5 et 3'. Pour ce qui est du biais 5', lorsque l'ADNc est synthétisé à partir de l'ARNm, et notamment le premier brin d'ADNc, la molécule qui créée le brin d'ADNc se décroche avant d'avoir recopiée toute la séquence d'ARNm. De ce fait, il manque une partie de la séquence de l'ARNm dans l'ADNc et donc, après séquençage, il n'existera que peu de lectures issues de la partie 5'. Pour ce qui est du biais en 3', les amorces utilisées ne complémentent pas forcément le brin d'ARNm dès son premier nucléotide en 3'. Comme pour le biais en 5', il manque une partie de la séquence de l'ARNm dans l'ADNc, et donc après séquençage, il n'existera que peu de lectures issues de la partie 3'. Grâce à la fragmentation de l'ARNm de façon aléatoire, les séquences d'ADNc ne sont pas identiques en ce sens où elles recopient la séquence de l'ARNm à des positions de départs et de fins différentes. Après séquençage, les lectures sont donc répartient de manière uniforme par rapport à l'ARNm.

A noter que dans le cas de l’utilisation du séquenceur Illumina, si la fragmentation est utilisée c’est principalement pour palier au problème de la longueur des lectures. En effet, les lectures Illumina, de 100 nucléotides environs, ne recouvrent pas l’ensemble de l’ARNm qui mesure, en moyenne, entre 1000 et 2000 nucléotides. Des technologies de séquençage telles que MinION ou PacBio ne rencontrent pas se problème.

En ce qui concerne la sélection des fragments selon la taille, les petites séquences, tels que les miARN, sont supprimées. Cette sélection enrichie d'autant plus la fraction d'ARNm et donc valorise l'obtention de données plus importantes pour les ARNm.

Lors de l'étape d'amplification des fragments d'ADNc qui prècede le séquençage, certains fragments peuvent être sur amplifiés par erreur. Il peut en résulter un nombre anormal de copies de lectures identiques qui peut biaiser les résultats. Ces lectures là sont appelées duplicats PCR.

Durant l'étape de séquençage, le séquenceur peut détecter un mauvais nucléotide dans le fragment d'ADNc et donc incorporer un nucléotide incorrect dans la lecture. De ce fait, certaines données présentent dans les résultats peuvent être faussées. Le séquenceur peut également lire plusieurs fois la même séquence d'ADNc à une position donnée créant ainsi des lectures multiples au lieu d'une seule. Ces lectures, considérées comme des duplicats optiques, peuvent maximiser la mesure d'expression pour le gène correspondant.

Réplicat biologique et réplicat technique

Avant de lancer le protocole expérimental pour la mesure de l'expression des gènes, il faut impérativement prendre en considération le fait qu'il puisse subsister une variabilité technique et biologique.

La variabilité technique est due à la collecte des cellules, la conservation et le stockage des cellules et l'extraction des ARNs mais également à la technique de mesure en elle même. La variabilité biologique, quant à elle, est due à la part de variation de nature biologique.

Pour limiter les variations, il faut recourir à des réplicats. Dans le cas de la limitation de la variabilité technique, il sera préférable d'utiliser le réplicat technique qui consiste à réaliser le protocole plusieurs fois à partir du même organisme. Dans le cas de la limitation de la variabilité biologique, il sera préférable de recourir au réplicat biologique qui consiste à effectuer le même protocole sur plusieurs organismes différents d'un même type biologique.

Comparaison des techniques

Les techniques de RNA-seq et de puce à ADN sont deux types de technologies développées pour analyser le transcriptome. La différence essentielle entre ces deux techniques réside dans le fait que la puce est basée sur le potentiel d'hybridation de sondes marquées tandis que le RNA-seq est basé sur le séquençage. De ce fait, la mesure de l'expression des gènes avec la puce demande des connaissances préalables sur les séquences or ce n'est pas le cas avec le RNA-seq où chaque nucléotide est séquencé. Fondamentalement, cela permet de détecter des variations structurelles telles que les nouveaux gènes, l'épissage alternatif et la fusion des gènes, d'annoter de nouvelles espèces et de trouver des SNPs, c'est-à-dire des variations d'une seule base entre individus d'une même espèce.

Dans le cas de la puce à ADN, les niveaux d'expression sont jaugés par rapport à l'intensité du signal lumineux. Il n'est possible que de définir si un gène est plus ou moins exprimé. Elle ne donne pas de quantifications exactes des ARNm à la différence de la technique de RNA-seq.

La technique RNA-seq présente diverses avantages, cependant, le coût relatif, le temps d'analyse et la quantité de stockage des données pour le RNA-seq sont plus importants que pour les puces à ADN.

Analyse de données RNA-seq

Analyse de la mesure de l'expression des gènes

Le protocole RNA-seq renvoie, à partir d'un échantillon d'ARNs où seuls les ARNm sont étudiés, des fichiers contenant une multitude de lectures. Ces fichiers de données brutes sont soumis à une analyse boinformatique consistant à contrôler la qualité des lectures, aligner les lectures contre un génome ou un transcriptome de référence puis de quantifier l'expression des gènes.

L'objectif du contrôle qualité est de vérifier que les lectures soient fiables avec un nombre minimum d'erreurs de séquençage attendues et ne présentent pas de biais et d'informations qu'il est possible de confondre avec de l'information biologique d'intérêt. Pour ce qui est de la qualité des lectures, il a pu être constaté que celle-ci baisse en fin de séquence. La solution est d'éliminer la fin de la séquence (trimming) en se basant sur un indice de qualité de séquençage présent dans les fichiers de sortie de la technique RNA-seq. En plus de cela, les duplicats peuvent être un réel problème pour la quantification des ARNm car les valeurs peuvent être faussées. Pour enlever les duplicats, une comparaison du début des lectures est réalisée sur un certains nombre de bases puis seul un représentant par groupe de lectures identiques est gardé. Après l'étape d'alignement, une comparaison peut se faire entres lectures qui s'alignent au même endroit. Dans les lectures, il peut également subsister des contaminants. Pour les diagnostiquer et les traiter, il faut identifier les contaminants en comparant les lectures à une banque de données de contaminants.

Dans les fichiers résultats, il y a les séquences des lectures cependant il n'y a pas d'informations sur leur provenance dans le génome. L'alignement permet donc de définir à quels gènes correspondent les lectures en alignant chaque lecture contre un génome de référence ou un transcriptome de référence. Les lectures ne s'alignent qu'aux endroits où la séquence est similaire à la référence.

Les résultats de l'alignement sont susceptibles de présenter des problèmes. En effet, certaines lectures s'alignent à plusieurs endroits ou encore ne s'alignent pas alors qu'elles le devraient. Si les lectures ne s'alignent pas, cela est du au fait qu'elles proviennent d'une jonction d'exons et que l'alignement est effectué sur un génome de référence. Du fait qu'une lecture possède deux portions de séquences issues de deux exons séparés par un intron dans le génome de référence, lorsque il y a alignement la lecture ne retrouve plus son origine. Pour rappel, les lectures ne contiennent que des séquences codantes et sont dépourvues d'introns. Afin de remédier à ce problème, deux cas se présentent : réaligner les lectures n'ayant pas pu être alignées contre un transcriptome car il ne possède que des exons ou réaligner les lectures en essayant des combinaisons de partition.

Si les lectures s'alignent à plusieurs endroits sur le génome de référence, cela est du au fait que les lectures proviennent de régions répétées telles que les gènes paralogues ou les pseudogènes rétrotranscrits. Les pseudogènes sont des gènes qui étaient actifs auparavant mais dont la séquence a dégénérée au cours de l'évolution. Certains pseudogènes sont issus de gènes transcrits puis rétrotranscrits et réintégrés dans le génome dans des régions où ils ne sont pas correctement exprimés. Ils ne sont alors plus soumis à la pression de sélection et subissent une accumulation de mutations. Ce sont les pseudogènes rétrotranscrits.

Une fois les lectures alignées, celles-ci sont quantifiées. Partant de l'hypothèse que le nombre de lectures venant d'un certain gène est proportionnel à l'abondance d'ARNm correspondant, il est alors possible d'évaluer l'expression d'un gène. Le résultat de la quantification est obtenu sous forme de matrice que l'on appelle matrice de comptage.

Analyse d’expression différentielle

La technique RNA-seq peut servir à quantifier l'expression des gènes pour un échantillon donné. Toutefois, quand est-il dans le cas où l'expression des gènes doit être comparée entre plusieurs échantillons dont chacun est déterminé par une condition ? Pour ce faire, une analyse différentielle est pratiquée une fois l'analyse de la mesure de l'expression des gènes appliquée sur les différents échantillons.

L'analyse différentielle se déroule en différentes étapes dont l'importation des matrices de comptage, la détection des échantillons aberrants, la sélection des transcrits suffisamment exprimés, la normalisation des données ainsi qu'un test statistique pour chacun des gènes.

La détection des échantillons aberrant s'effectue par clustering. Cette étape consiste à regrouper les échantillons en clusters, c'est-à-dire en une collection d'échantillons similaires entre eux et dissimilaires aux autres. Pour visualiser les clusters, une heatmap ou une analyse en composante principales sont employées. La heatmap est une matrice en deux dimensions. Il peut être retrouvé soit en ordonnée les gènes et en abscisse les différents échantillons tous regroupés sous forme de clusters soit simplement les échantillons regroupés également sous forme de clusters. Afin de savoir si les niveaux d'expression sont similaires ou non, une gamme de couleur est associée. Le soucis étant qu'à partir des données brutes, il y a une tendance à ce que l'échelle de couleur soit étendue par les hauts niveaux d'expression et ainsi la heatmap ne contient qu'une seule et même couleur. Pour palier à ce problème, il suffit de normaliser les données.

L'analyse en composante principales est une procédure statistique qui aide à visualiser les échantillons dans un plan, c'est-à dire un espace à deux dimensions, qui maximise leur dispersion alors qu'ils subsistent dans une dimension plus importante. Chacun des axes de l’espace en deux dimensions correspond à une composante principale. Les composantes principales expliquent les variances des points. Dans le cas de l’expression des gènes, chaque dimension correspond à la mesure de l’expression d’un gène donné. Si les mesures d’expression sont effectuées sur 3 gènes dans 4 échantillons différents alors 4 points seront placés dans un espace à 3 dimensions.

Une fois les échantillons aberrants détectés et mis de côté, les transcrits suffisamment exprimés sont sélectionnés. Les gènes avec une très faible expression dans tous les échantillons fournissent peu de preuves de l'expression différentielle. De plus, d'un point de vue biologique, un gène doit être exprimé à un niveau minimal avant de pouvoir être traduit en protéine. Qui plus est, un gène suffisamment exprimé traduit son importance biologique.

Avant de comparer, il est important de normaliser les données. En effet, les comptages bruts ne sont pas directement comparable du fait que la valeur des comptages est directement liée à la profondeur de séquençage, c'est-à-dire du nombre de lectures séquencées qui couvrent une base, à la longueur des transcrits et sont une mesure relative de l'abondance d'un transcrit. Pour le lien avec la profondeur de séquencage, si l'on séquence deux fois plus, toutes choses étant égales, il y aura des comptages deux fois plus élevés. Pour la dépendance avec la longueur du transcrit, toutes choses étant égales, un transcrit deux fois plus long produira deux fois plus de fragments et donc deux fois plus de lectures. Enfin pour les comptages comme mesures relatives, du fait qu'un nombre donné de lectures est séquencé, le comptage pour chaque transcrit est lié à son abondance relative, c'est-à-dire la proportion qu'il représente dans la population de tous les ARNm de l'échantillon de départ. Cela implique que si deux échantillons A et B sont rigoureusement identiques à l'exception d'un transcrit présent dans A et qui disparaît complétement dans B, l'abondance de tous les autres transcrits augmente sans pour autant que leur abondance absolue, c'est-à-dire la proportion qu'ils représentent dans l'ensemble des ARN totaux de l'échantillon de départ, augmente.

Une unité pour pratiquer la normalisation et ainsi permettre la comparaison des mesures d'expression des gènes est le RPKM (Reads Per Kilobase per Million mapped reads). Le RPKM se défini comme tel :

avec le comptage brut du transcrit t, la longueur du transcrit t et n la profondeur de séquençage.

En fin d'analyse différentielle, un test statistique est exécutée sur chacun des gènes. C'est une procédure permettant d'apprécier si une hypothèse portant sur un phénome aléatoire est plausible ou non au vu des mesures disponibles. Le phénomène aléatoire est l'expression d'un gène, les mesures disponibles sont celles fournies par le protocole RNA-seq et l'hypothèse à tester porte sur le niveau moyen d'expression entre plusieurs échantillons, c'est-à-dire à mettre en évidence les gènes dont l'expression moyenne varie suffisamment entre deux échantillons. La démarche d'un test suit généralement les étapes suivantes :

une hypothèse communément admise sauf si l'expérience vient la réfuter, appelée hypothèse nulle ou , est posée le risque de première espèce, appelé α, est fixé. Il y a une possibilité de rejeter l'hypothèse nulle alors qu'elle est vrai. C'est pourquoi, α permet de borner la probabilité de se tromper, c'est-à-dire la probabilité d'avoir un faux-positif. la statistique de test, qui est un résumé statistique des données et une variable aléatoire, est choisie et sa distribution est déterminée sous l'hypothèse nulle.

la probabilité, appelée p-value, est calculée sous l'hypothèse nulle. La p-value est la probabilité que la statistique de test soit égale ou supérieure à celle obtenue expérimentalement sous l’hypothèse nulle.

Une fois ces étapes accomplies, il est alors possible de conclure quant à l'acceptation ou au rejet de au risque α et donc de définir si le gène est plus exprimé dans un échantillon que dans un autre. Dans le cas où est rejetée, il est judicieux de calculer la puissance de test, c'est-à-dire la probabilité de rejeter alors qu'elle est fausse, défini comme étant 1 - β où β, appelé le risque de deuxième espèce, est la probabilité d'accepter l'hypothèse nulle alors qu'elle est fausse, c'est-à-dire la probabilité d'avoir un faux-négatif.

La démarche précédente permet de rechercher une différence significative d'expression pour un gène à un risque de première espèce donné. Lors de l'analyse différentielle, les tests sont effectués simultanément au même risque de première espèce. Le problème est qu'il peut y avoir beaucoup d'hypothèses rejetées à tort en multipliant les tests. En effet, chaque fois qu'un test statistique est réalisé, il y a un risque de 5% de conclure à tort à une différence significative. Donc, cela veut dire que sur 1000 gènes testés, il y aura en moyenne 50 considérés comme différentiellement exprimés alors qu'ils ne le sont pas. Il faut donc prendre en compte ce problème et tenter de le corriger. Pour cela, il est possible d'utiliser la procédure de Benjamini et

Hochberg permettant de contrôler le taux de fausses découvertes (FDR) dans le cas où les hypothèses nulles vraies sont indépendantes et à un niveau de risque de première espèce donné.

Assemblage de novo du transcriptome

A supposer qu'il n'y ait ni génome de référence ni transcriptome de référence permettant d'analyser les données RNA-seq, les lectures peuvent alors être assemblées afin de créer un transcriptome de novo. Une stratégie pour assembler est d'utiliser un assembleur basé sur les graphes de De Bruijn.

De façon générale, un graphe permet de représenter une interaction deux à deux entre des objets. Un graphe est composé d'un ensemble de sommets représentant les objets et d'un ensemble d'arêtes représentant les intéractions. Les graphes peuvent être orientés ou non orientés, c'est-à-dire que les arêtes peuvent avoir un sens ou non.

Un graphe de De Bruijn est un graphe orienté qui permet de représenter les chevauchements de longueur k-1 entre tous les mots de longueur k. Dans le cas d'un graphe de De Bruijn d'un ensemble de lectures, les sommets correspondent à tous les k mer, c'est-à-dire des sous-séquences de longueurs k, et deux sommets sont reliés par une arête si les deux k-mer ont un chevauchement de taille k-1.

La stratégie pour assembler de novo le transcriptome est de nettoyer les lectures par un contrôle qualité, de construire le k graphe de De Bruijn de l'ensemble des lectures, d'essayer de corriger les erreurs et d'identifier et de compresser les portions linéaires, appelées contigs.

Pour ce qui est de trouver la meilleure valeur pour k cela reste difficile. Une grande valeur pour k permet de stocker plus d’informations sur les répétitions courtes qui restent à l’intérieur d’un même k-mer. Cependant, il y a une perte de l’information des chevauchements plus courts que la valeur k − 1. Cela implique la nécessité d’une couverture, c'est-à-dire une zone couverte par au moins une lecture, plus élevée afin d’éviter les régions non couvertes par les reads chevauchants. Un plus petit k perd les informations sur les répétitions courtes mais capte plus d’informations sur les chevauchements entre deux reads. Le choix pour la valeur du k est donc un compromis. Une solution possible est l’utilisation de différentes valeurs de k.

A l’issu de l’assemblage du transcriptome via un assembleur basé sur les graphes de De Bruijn, un ensemble de sous-graphes connexes du graphe appelés composantes connexes sont obtenus. D’un point de vue biologique, chaque composante connexe caractérise un gène ou une zone d’un gène. S’il subsiste des composantes connexes et non un seul graphe connexe, cela est dû au fait que les gènes sont séparés par des portions intergéniques non retrouvées dans les ARNm du fait qu’elles ne sont pas codantes et donc non transcrits.