Le transcriptome humain
Le transcriptome de référence humain est une représentation complète de tous les transcrits (ARN) exprimés dans les cellules humaines à un moment donné. Contrairement au génome, qui est fixe et identique dans toutes les cellules d'un individu, le transcriptome varie en fonction du type cellulaire, du stade de développement, des conditions environnementales, et des stimuli externes. Il constitue donc un instantané dynamique de l'expression génique dans une cellule ou un tissu.
La dernière version du transcriptome de référence humain à ce jour est GRCh38.p14. Il est possible de la télécharger directement à l'adresse https://ftp.ncbi.nlm.nih.gov/genomes/all/GCF/000/001/405/GCF_000001405.40_GRCh38.p14/ sous le nom de fichier GCF_000001405.40_GRCh38.p14_rna.fna.gz.
Nous allons voir ensemble les informations sur ce transcriptome de référence humain.
Le nom du fichier
Nous allons décortiquer le nom de fichier du transcriptome :
- GRCh38 (Genome Reference Consortium Human Build 38) correspond à la version du génome humain assemblé
- p14 (patch release 14) correspond à la version 14 du patch, soit à la 14ème correction
- GCF_000001405.40 est l'accession RefSeq (l'équivalent en accession GenBank est GCA_000001405.29)
- _rna.fna.gz correspond au format FASTA comprennant les ARN produits à partir du génome
Accessions number et status code
Pour ce qui est de l'intérieur du fichier, rien de changant par rapport à un fichier FASTA classique. En revanche, on peut noter 4 types de numéro d'accessions dans les ids (après > dans le fichier) : NM_, XM_, NR_ et XR_. Si l'on regarde la page RefSeq de l'annotation d'Homo sapiens, notamment le tableau Feature counts dans la section Gene and feature statistics, on peut retrouver les patterns d'ids dans mRNAs (pour NM et XM) et dans non-coding RNAs (pour NR et XR).
Les ids débutant par un X sont des Model RefSeq. Ce sont des séquences produites de façon automatique par un pipeline.
RNA and protein products that are generated by the eukaryotic genome annotation pipeline. These records use accession prefixes XM_, XR_, and XP_. (https://www.ncbi.nlm.nih.gov/refseq/about/)
Les ids débutant par un N sont des Known RefSeq. Ce sont des séquences manuellement revues par des membres du NCBI ou des collaborateurs.
RNA and protein products that are mainly derived from GenBank cDNA and EST data and are supported by the RefSeq eukaryotic curation group. These records use accession prefixes NM_, NR_, and NP_. (https://www.ncbi.nlm.nih.gov/refseq/about/)
Quantification des ARNs présents
Comme nous l'avons vu précédement, nous avons 4 types d'accessions number correspondant à des ARNm et à des ARNnc. Voici le nombre de chacun d'entre eux dans le transcriptome de référence téléchargé. Les informations peuvent être retrouvées dans la table Feature counts de la page RefSeq de l'annotation d'Homo sapiens, notamment aux lignes mRNAs, non-coding RNAs et pseudo transcripts.
mRNAs : NM | mRNAs : XM | ncRNAs : NR | ncRNAs : NR | pseudo transcripts : NR | pseudo transcripts : XR |
---|---|---|---|---|---|
67116 | 69065 | 21487 | 25697 | 1593 | 163 |
Soit un total de :
- mRNAs : 136181
- ncRNAs : 47184
- pseudo transcripts : 1756
Les isoformes
Dans le transcriptome de référence humain, les isoformes des ARN sont présents. Prenons le cas du gène MELK maternal embryonic leucine zipper kinase. Lorsque l'on effectue une recherche de ce gène dans le fichier FASTA du transcriptome, on retrouve 53 séquences de transcripts de mRNA prédits ou non et d'un ncRNA review
NM_001256685.2 Homo sapiens maternal embryonic leucine zipper kinase (MELK), transcript variant 2, mRNA
NM_001256687.2 Homo sapiens maternal embryonic leucine zipper kinase (MELK), transcript variant 3, mRNA
NM_001256688.2 Homo sapiens maternal embryonic leucine zipper kinase (MELK), transcript variant 4, mRNA
NM_001256689.2 Homo sapiens maternal embryonic leucine zipper kinase (MELK), transcript variant 5, mRNA
NM_001256690.2 Homo sapiens maternal embryonic leucine zipper kinase (MELK), transcript variant 6, mRNA
NM_001256691.2 Homo sapiens maternal embryonic leucine zipper kinase (MELK), transcript variant 7, mRNA
NM_001256692.2 Homo sapiens maternal embryonic leucine zipper kinase (MELK), transcript variant 8, mRNA
NM_001256693.2 Homo sapiens maternal embryonic leucine zipper kinase (MELK), transcript variant 9, mRNA
NM_014791.4 Homo sapiens maternal embryonic leucine zipper kinase (MELK), transcript variant 1, mRNA
NR_046337.2 Homo sapiens maternal embryonic leucine zipper kinase (MELK), transcript variant 10, non-coding RNA
XM_011518076.3 PREDICTED: Homo sapiens maternal embryonic leucine zipper kinase (MELK), transcript variant X2, mRNA
XM_011518077.2 PREDICTED: Homo sapiens maternal embryonic leucine zipper kinase (MELK), transcript variant X3, mRNA
XM_011518080.1 PREDICTED: Homo sapiens maternal embryonic leucine zipper kinase (MELK), transcript variant X4, mRNA
XM_011518081.3 PREDICTED: Homo sapiens maternal embryonic leucine zipper kinase (MELK), transcript variant X8, mRNA
XM_011518082.3 PREDICTED: Homo sapiens maternal embryonic leucine zipper kinase (MELK), transcript variant X7, mRNA
XM_011518085.2 PREDICTED: Homo sapiens maternal embryonic leucine zipper kinase (MELK), transcript variant X27, mRNA
XM_047424166.1 PREDICTED: Homo sapiens maternal embryonic leucine zipper kinase (MELK), transcript variant X1, mRNA
XM_047424168.1 PREDICTED: Homo sapiens maternal embryonic leucine zipper kinase (MELK), transcript variant X5, mRNA
XM_047424169.1 PREDICTED: Homo sapiens maternal embryonic leucine zipper kinase (MELK), transcript variant X6, mRNA
XM_047424170.1 PREDICTED: Homo sapiens maternal embryonic leucine zipper kinase (MELK), transcript variant X9, mRNA
XM_047424171.1 PREDICTED: Homo sapiens maternal embryonic leucine zipper kinase (MELK), transcript variant X10, mRNA
XM_047424172.1 PREDICTED: Homo sapiens maternal embryonic leucine zipper kinase (MELK), transcript variant X11, mRNA
XM_047424173.1 PREDICTED: Homo sapiens maternal embryonic leucine zipper kinase (MELK), transcript variant X12, mRNA
XM_047424174.1 PREDICTED: Homo sapiens maternal embryonic leucine zipper kinase (MELK), transcript variant X13, mRNA
XM_047424176.1 PREDICTED: Homo sapiens maternal embryonic leucine zipper kinase (MELK), transcript variant X14, mRNA
XM_047424177.1 PREDICTED: Homo sapiens maternal embryonic leucine zipper kinase (MELK), transcript variant X15, mRNA
XM_047424178.1 PREDICTED: Homo sapiens maternal embryonic leucine zipper kinase (MELK), transcript variant X16, mRNA
XM_047424179.1 PREDICTED: Homo sapiens maternal embryonic leucine zipper kinase (MELK), transcript variant X17, mRNA
XM_047424180.1 PREDICTED: Homo sapiens maternal embryonic leucine zipper kinase (MELK), transcript variant X18, mRNA
XM_047424181.1 PREDICTED: Homo sapiens maternal embryonic leucine zipper kinase (MELK), transcript variant X19, mRNA
XM_047424182.1 PREDICTED: Homo sapiens maternal embryonic leucine zipper kinase (MELK), transcript variant X20, mRNA
XM_047424183.1 PREDICTED: Homo sapiens maternal embryonic leucine zipper kinase (MELK), transcript variant X21, mRNA
XM_047424184.1 PREDICTED: Homo sapiens maternal embryonic leucine zipper kinase (MELK), transcript variant X22, mRNA
XM_047424185.1 PREDICTED: Homo sapiens maternal embryonic leucine zipper kinase (MELK), transcript variant X23, mRNA
XM_047424186.1 PREDICTED: Homo sapiens maternal embryonic leucine zipper kinase (MELK), transcript variant X24, mRNA
XM_047424187.1 PREDICTED: Homo sapiens maternal embryonic leucine zipper kinase (MELK), transcript variant X25, mRNA
XM_047424188.1 PREDICTED: Homo sapiens maternal embryonic leucine zipper kinase (MELK), transcript variant X26, mRNA
XM_047424189.1 PREDICTED: Homo sapiens maternal embryonic leucine zipper kinase (MELK), transcript variant X28, mRNA
XM_047424191.1 PREDICTED: Homo sapiens maternal embryonic leucine zipper kinase (MELK), transcript variant X29, mRNA
XM_047424192.1 PREDICTED: Homo sapiens maternal embryonic leucine zipper kinase (MELK), transcript variant X30, mRNA
XM_047424193.1 PREDICTED: Homo sapiens maternal embryonic leucine zipper kinase (MELK), transcript variant X31, mRNA
XM_047424194.1 PREDICTED: Homo sapiens maternal embryonic leucine zipper kinase (MELK), transcript variant X32, mRNA
XM_047424195.1 PREDICTED: Homo sapiens maternal embryonic leucine zipper kinase (MELK), transcript variant X33, mRNA
XM_047424196.1 PREDICTED: Homo sapiens maternal embryonic leucine zipper kinase (MELK), transcript variant X34, mRNA
XM_047424197.1 PREDICTED: Homo sapiens maternal embryonic leucine zipper kinase (MELK), transcript variant X35, mRNA
XM_047424198.1 PREDICTED: Homo sapiens maternal embryonic leucine zipper kinase (MELK), transcript variant X36, mRNA
XM_047424199.1 PREDICTED: Homo sapiens maternal embryonic leucine zipper kinase (MELK), transcript variant X37, mRNA
XM_047424200.1 PREDICTED: Homo sapiens maternal embryonic leucine zipper kinase (MELK), transcript variant X38, mRNA
XM_047424202.1 PREDICTED: Homo sapiens maternal embryonic leucine zipper kinase (MELK), transcript variant X39, mRNA
XM_047424203.1 PREDICTED: Homo sapiens maternal embryonic leucine zipper kinase (MELK), transcript variant X40, mRNA
XM_047424204.1 PREDICTED: Homo sapiens maternal embryonic leucine zipper kinase (MELK), transcript variant X41, mRNA
XM_047424205.1 PREDICTED: Homo sapiens maternal embryonic leucine zipper kinase (MELK), transcript variant X42, mRNA
XM_047424206.1 PREDICTED: Homo sapiens maternal embryonic leucine zipper kinase (MELK), transcript variant X43, mRNA
Il est possible de visualiser cette liste de transcripts en allant dans la section Genomic regions, transcripts, and products de la page NCBI du gène MELK. Attention, dans le menu déroulant Genomic Sequence: il est important de bien prendre la référence GRCh38.p14.