Sur la longueur, le poids et le contenu GC du génome humain

Méthodes

Calculs de la longueur et du poids du génome humain

Les longueurs en centimètres (cm) et le poids en picogrammes (pg) de l’ensemble des 24 séquences de chromosomes humains et de l’ADNmt ont été calculés comme détaillé dans Additional file 1 : Additional Methods.

Analyse du contenu en GC

Le contenu génomique en GC a été calculé parmi certaines bases pour les 24 chromosomes et pour l’ADNmt comme détaillé dans Additional file 1 : Additional Methods.

Le logiciel « Transcriptomic GC Analysis » (TGCA) a été développé ici pour étudier la variation possible du contenu GC dans l’expression des transcriptomes entiers.

Les cartes quantitatives du transcriptome humain ont été précédemment obtenues à partir d’ensembles de données de microréseaux accessibles au public, analysés par le logiciel TRAM (Transcriptome Mapper) comme décrit . Comme les valeurs d’expression génique quantitative peuvent anticiper les effets mutationnels qui affecteront le plus probablement un tissu humain donné , nous avons comparé un type de cellule pathologique avec son homologue normal et un organe entier avec l’une de ses sous-régions (fichier supplémentaire 1 : Méthodes supplémentaires). Pour chaque analyse, seuls les gènes pour lesquels une valeur d’expression est disponible dans les deux conditions biologiques ont été utilisés. Pour chaque gène, la plus longue séquence d’ARNm humain a été obtenue à partir de la dernière version du logiciel 5′_ORF_Extender humain (fichier additionnel 1 : Méthodes additionnelles).

Puisque TRAM et 5′_ORF_Extender ont été implémentés pour d’autres organismes , le logiciel TGCA lui-même a été implémenté dans le but d’être facilement utilisé avec n’importe quel ensemble de données de séquence et d’expression de n’importe quel organisme. Ainsi, nous avons effectué des calculs de GC sur les génomes d’autres espèces représentatives : Danio rerio, Caenorhabditis elegans, Saccharomyces cerevisiae et Escherichia coli (fichier additionnel 1 : Méthodes additionnelles).

Résultats

La longueur et le poids du génome nucléaire humain

Les longueurs individuelles des chromosomes en pb et en cm sont indiquées dans le tableau 2. Certains comptes de bases et des estimations de composition de bases incertaines donnés dans le fichier additionnel 2 : tableau S1 ont été utilisés pour calculer le poids de chaque chromosome, obtenant les résultats présentés dans le tableau 2. Les sommes de la longueur et du poids des 24 chromosomes (22 autosomes et chromosomes X et Y) ont été utilisées afin d’estimer proportionnellement la longueur et le poids des bases non placées, améliorant ainsi la précision du calcul du génome entier (tableau 2). Les données de l’assemblage précédent (GRCh37.p13) sont également indiquées dans le fichier supplémentaire 3 : tableau S2 et le fichier supplémentaire 4 : tableau S3. Les chromosomes variant dans une plus grande mesure entre les deux versions d’assemblage sont les chromosomes 9 et Y (GRCh38 a 2,8 Mb et 2,1 Mb de moins que GRCh37, respectivement) et les chromosomes 17 et 18 (GRCh38 a 2,1 Mb et 2,3 Mb de plus que GRCh37, respectivement).

Tableau 2 Longueur, poids et contenu GC des chromosomes humains, du génome et de l’ADN mitochondrial

Considérant une longueur moyenne dans une cellule diploïde de 206.62 cm et la dernière estimation d’une moyenne de 3 × 1012 cellules nucléées pour un être humain de référence , l’extension totale en longueur de toutes les molécules d’ADN nucléaire présentes dans un seul individu humain est d’environ 6,20 milliards de km (6,20 × 1012 m) et est suffisante pour couvrir la distance Terre-Soleil (https://cneos.jpl.nasa.gov/glossary/au.html) plus de 41 fois. En considérant un poids moyen dans une cellule diploïde de 6,46 pg, le poids du génome additionné sur l’ensemble des cellules humaines nucléées serait d’environ 19,39 g, soit presque le poids de 100 carats (https://sizes.com/units/carat.htm).

Le génome mitochondrial

En appliquant tous les calculs précédemment effectués pour le génome nucléaire, la longueur, le poids et le contenu en GC de l’ADNmt humain ont été estimés (tableau 2).

En moyenne, une cellule humaine pourrait contenir d’un minimum de 2 845 394 ± 204 296 pb, 0,09 ± 0,0067 cm et 0,0029 ± 0,00021 pg à un maximum de 110 742 060 ± 4 568 736,06 pb, 3,62 ± 0,15 cm et 0,11 ± 0,0047 pg d’ADNmt au total, selon l’incertitude du nombre de molécules d’ADN par cellule (fichier supplémentaire 1 : Méthodes supplémentaires). Par conséquent, l’ADNmt, bien que sa taille soit très réduite par rapport à celle de l’ADN nucléaire (1/195 663 par rapport au génome nucléaire haploïde), constitue une part significative de l’ADN total d’une cellule humaine : environ 0,90-1,21% (cellule diploïde), pouvant représenter au moins 52.03% de l’ADN dans le cas d’un ovocyte mature.

Analyse du contenu en GC

Les contenus en GC humains calculés parmi les bases certaines (A, T, W, G, C et S) dénombrées dans les 24 chromosomes humains à l’exclusion des 150 630 700 bases incertaines sont présentés dans le tableau 2 (fichier additionnel 4 : tableau S3 pour GRCh37.p13). Parmi les autres espèces étudiées, les nombres de chromosomes calculés, les longueurs de pb du génome total et les contenus GC génomiques (tableau 3) sont conformes aux rapports précédents (fichier additionnel 5 : tableau S4).

Tableau 3 Génomique, ARNm et contenu transcriptomique GC dans les conditions humaines étudiées et d’autres espèces

Les cartes transcriptomiques des blastes et des mégacaryoblastes euploïdes (MK) humains atteints du syndrome de Down (DS) et de la leucémie mégacaryoblastique aiguë (LMA) ont une valeur d’expression dans les deux conditions ainsi que des séquences d’ARNm disponibles pour 16 547 gènes. Cette valeur pour l’hippocampe humain entier et les cartes du transcriptome du cerveau entier est de 17 579 gènes. Parmi les autres espèces étudiées, cette valeur est de 6642 gènes pour le cerveau de D. rerio, 19 281 pour C. elegans, 4673 pour S. cerevisiae et 2426 pour E. coli. Les contenus GC des ARNm calculés dans ces sous-ensembles à l’aide du logiciel TGCA sont indiqués dans le tableau 3. Pour chaque condition biologique, chaque compte absolu de GC d’ARNm a ensuite été multiplié par la valeur d’expression correspondante. La somme de ces valeurs relatives à chaque carte transcriptomique donne le contenu GC transcriptomique (tableau 3). Les contenus GC des ARNm et transcriptomiques pour chaque chromosome dans les conditions DS-AMKL et MK sont donnés dans le fichier additionnel 6 : tableau S5. La condition DS-AMKL a 7 chromosomes (9, 11, 20, 17, 16, 22, 19) avec un contenu GC transcriptomique supérieur à 48,80 qui est le % GC total de l’ARNm (le maximum est 56,26% du chr19), tandis que la condition MK a 9 chromosomes (7, 15, 9, 11, 20, 17, 22, 16, 19) avec un contenu GC transcriptomique supérieur à cette valeur (le maximum est 59,02% du chr19, ce qui est une valeur très élevée).

Discussion

Dans ce travail, nous avons déterminé, au mieux de nos connaissances, les paramètres de base décrivant le génome humain normal de référence : la longueur, exprimée à la fois en termes de pb et d’unité de longueur (cm, m), le poids (en unité de masse, pg) et le contenu GC relatif exprimé en pourcentages, pour l’ensemble du génome nucléaire humain, pour chaque chromosome et pour l’ADNmt.

Nous avons basé nos calculs sur l’assemblage GRCh38, qui est plus long et plus contigu que les versions précédentes de l’assemblage de référence et fournit une représentation basée sur la séquence pour les caractéristiques génomiques telles que les centromères et les télomères pour la première fois , qui, bien que variables selon les types de cellules et les âges, affecteraient nos estimations dans une faible mesure. Cependant, la diversité génétique humaine va de la variation d’un seul nucléotide aux grands événements chromosomiques. Après le séquençage de 1 000 génomes humains, une analyse récente a estimé à environ 20 millions de bases la variation de séquence dans un génome diploïde typique. En appliquant cet ordre de grandeur de variation à nos estimations, on peut supposer une variabilité proportionnelle entre les individus de ± 0,65 cm et 0,02 pg pour la longueur et le poids d’un génome diploïde moyen humain.

Nos résultats ne sont pas loin des estimations approximatives précédentes (tableau 1), cependant la détermination plus précise de la longueur et du poids du génome humain pourrait offrir des possibilités intéressantes. Une analyse récente de 70 génomes allant des procaryotes aux primates a montré que cinq lois informationnelles sur la complexité de la structure du génome peuvent avoir été trouvées , suggérées par des indices basés sur la valeur k = lg2(n), où k est la longueur d’une chaîne de caractères apparaissant dans le génome et n est la longueur du génome . L’application de notre analyse à d’autres génomes serait utile pour mettre à jour ces indices. Une autre possibilité intéressante offerte par la connaissance de la longueur du génome nucléaire humain est la dérivation du volume total de l’ADN humain, afin d’estimer l’efficacité de l’ADN dans le stockage des données, qui s’est avérée être de l’ordre de 104 fois supérieure à celle des disques durs les plus avancés actuellement (fichier additionnel 7 : Discussion). Le poids du génome est un paramètre utile pour la corrélation avec les rendements d’extraction d’ADN par différentes méthodes .

En ce qui concerne l’analyse du contenu GC au niveau génomique, nos résultats sont en accord avec une étude récente . Grâce à la mise en œuvre du logiciel TGCA, nous avons également déterminé pour la première fois le contenu en GC au niveau de l’ARNm et de la transcriptomique, un concept nouveau que nous proposons ici, qui est le pourcentage de GC calculé dans la quantité d’ARNm réellement exprimée dans un tissu. Le contenu génomique humain en GC s’avère beaucoup plus faible que le contenu en GC de l’ARNm. Le contenu en GC de l’ARNm est à son tour similaire au contenu transcriptomique en GC. Cela a également été confirmé chez D. rerio et C. elegans et, dans une moindre mesure, chez S. cerevisiae et E. coli. Dans l’ensemble, il semble que la composition GC des gènes fortement et faiblement exprimés dans des tissus spécifiques affecte le contenu GC de l’ARNm dans une faible mesure et qu’une compensation globale entre eux puisse exister.

En comparant différentes conditions biologiques, la plus grande déviation du contenu GC de l’ARNm a été trouvée dans une condition d’aneuploïdie et de leucémie (DS-AMKL). Il est intéressant de noter que le contenu GC transcriptomique du DS-AMKL s’écarte dans une plus large mesure du contenu GC transcriptomique de l’homologue euploïde sain des cellules MK. Des travaux récents menés sur des sujets atteints de DS ont montré des altérations typiques du métabolome et du transcriptome entier. Le contenu en GC du chromosome 21 est l’un des plus proches du contenu génomique moyen en GC, ainsi la présence d’une troisième copie du chromosome 21 n’entraînerait pas un grand changement dans la composition en GC au niveau génomique. Puisque la duplication d’au moins une région restreinte du chromosome 21 humain est associée à la DS, des études supplémentaires sont nécessaires pour déterminer si la duplication de cette région du chromosome 21 et/ou la condition de leucémie est responsable de ce modèle de déviation. Par exemple, un travail récent a montré une forte expression d’ARNm à fort contenu en GC dans le transcriptome des lésions du psoriasis, alors que les lésions résolutives avaient une faible expression de ces ARNm. Une analyse plus approfondie sera nécessaire pour valider l’utilisation de ces indices en tant qu’indicateurs dans la comparaison de la maladie par rapport aux conditions normales.

La détermination du contenu GC génomique, ARNm et transcriptomique peut être utile dans les analyses de séquençage de l’ADN et de l’ARN, où le biais du contenu GC pour la technologie de séquençage Illumina a été documenté comme étant probablement introduit à l’étape de préparation de la bibliothèque, ce qui entraîne une confusion dans les études du nombre de copies d’ADN et les estimations de fold-change d’expression .

En conclusion, nous fournissons une mise à jour des paramètres fondamentaux du génome humain et une première caractérisation du contenu GC de l’ARNm et du transcriptome. Nos résultats peuvent représenter une base solide pour des investigations ultérieures sur la génomique structurelle et fonctionnelle humaine tout en fournissant un cadre pour l’analyse comparative d’autres génomes.

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée.