Le génome humain
Le génome humain de référence est une séquence de l’ADN humain qui sert de modèle standard pour représenter l'ensemble du génome humain. Il s'agit d'une carte génomique unifiée qui combine les séquences d'ADN provenant de plusieurs individus, utilisée pour la recherche, l'analyse clinique et la comparaison génétique.
La dernière version du génome de référence humain à ce jour est GRCh38.p14. Il est possible de la télécharger directement à l'adresse https://ftp.ncbi.nlm.nih.gov/genomes/all/GCF/000/001/405/GCF_000001405.40_GRCh38.p14/ sous le nom de fichier GCF_000001405.40_GRCh38.p14_genomic.fna.gz.
Nous allons voir ensemble les informations sur ce génome de référence.
Le nom du fichier
Nous allons décortiquer le nom de fichier du génome :
- GRCh38 (Genome Reference Consortium Human Build 38) correspond à la version du génome humain assemblé
- p14 (patch release 14) correspond à la version 14 du patch, soit à la 14ème correction
- GCF_000001405.40 est l'accession RefSeq (l'équivalent en accession GenBank est GCA_000001405.29)
- _genomic.fna.gz correspond au format FASTA comprennant les ADN présent dans le génome
Accessions number
Quand l'on regarde les identifiants des séquences FASTA du génome de référence, nous pouvons constater que les numéros accessions débutent par NT, NC et NW. Les ids RefSeq débutant par N sont des Known RefSeq. Ainsi, ces séquences sont revues manuellement par des membres du NCBI ou des collaborateur. Sinon, si l'on se réfère à la Table 1 du Chapter 18, The Reference Sequence (RefSeq) Database, nous pouvont voir :
NC_ | Genomic | Complete genomic molecule, usually reference assembly
NT_ | Genomic | Contig or scaffold, clone-based or WGS
NW_ | Genomic | Contig or scaffold, primarily WGS
Prenons des exemples d'identifiants dans le fichier du génome de référence :
>NC_000001.11 Homo sapiens chromosome 1, GRCh38.p14 Primary Assembly
>NC_000009.12 Homo sapiens chromosome 9, GRCh38.p14 Primary Assembly
>NT_187361.1 Homo sapiens chromosome 1 unlocalized genomic scaffold, GRCh38.p14 Primary Assembly HSCHR1_CTG1_UNLOCALIZED
>NT_187372.1 Homo sapiens chromosome 9 unlocalized genomic scaffold, GRCh38.p14 Primary Assembly HSCHR9_UNLOCALIZED_CTG1
>NW_012132914.1 Homo sapiens chromosome 1 genomic patch of type FIX, GRCh38.p14 PATCHES HG1342_HG2282_PATCH
>NW_013171804.1 Homo sapiens chromosome 9 genomic patch of type NOVEL, GRCh38.p14 PATCHES HSCHR9_1_CTG6
Quantification des séquences présentes
Nous pouvons voir que dans le fichier FASTA du génome de référence il y a 705 séquences dont :
- 25 NC_ soit 24 chromosomes + mitochondrie
- 355 NT_, unlocalized genomic scaffold, assemblées mais leur emplacement précis n'est pas déterminé avec certitude
- 325 NW_, genomic scaffold, souvent utilisé comme révision ou affinage de région
Ce qui comprends environ :
- 20000 à 21000 gènes codant pour des protéines
- 10000 à 20000 gènes non codants (ARN non codants, microARN, etc.)