Metodi
Calcoli della lunghezza e del peso del genoma umano
Le lunghezze in centimetri (cm) e il peso in picogrammi (pg) di tutte le 24 sequenze di cromosomi umani e mtDNA sono stati calcolati come dettagliato nel file aggiuntivo 1: Metodi aggiuntivi.
Analisi del contenuto di GC
Il contenuto genomico di GC è stato calcolato tra certe basi per i 24 cromosomi e per il mtDNA come dettagliato nel file aggiuntivo 1: Metodi aggiuntivi.
Il software “Transcriptomic GC Analysis” (TGCA) è stato sviluppato qui per studiare la possibile variazione del contenuto di GC nell’espressione di interi trascrittomi.
Le mappe quantitative del trascrittoma umano sono state precedentemente ottenute da dataset di microarray disponibili al pubblico e analizzati attraverso il software TRAM (Transcriptome Mapper) come descritto. Dal momento che i valori di espressione genica quantitativa possono anticipare gli effetti mutazionali che molto probabilmente interesseranno un dato tessuto umano, abbiamo confrontato un tipo di cellula patologica con la sua controparte normale e un intero organo con una delle sue sottoregioni (file aggiuntivo 1: metodi aggiuntivi). Per ogni analisi, sono stati utilizzati solo i geni per i quali è disponibile un valore di espressione in entrambe le condizioni biologiche. Per ogni gene, la più lunga sequenza di mRNA umano è stata ottenuta dall’ultima versione del software 5′_ORF_Extender umano (Additional file 1: Additional Methods).
Siccome TRAM e 5′_ORF_Extender sono stati implementati per altri organismi, il software TGCA stesso è stato implementato con lo scopo di essere facilmente utilizzato con qualsiasi sequenza e dataset di espressione di qualsiasi organismo. Così, abbiamo eseguito i calcoli GC su altri genomi di specie rappresentative: Danio rerio, Caenorhabditis elegans, Saccharomyces cerevisiae ed Escherichia coli (file aggiuntivo 1: metodi aggiuntivi).
Risultati
Lunghezza e peso del genoma nucleare umano
Le lunghezze dei singoli cromosomi in bp e cm sono riportate nella tabella 2. Alcuni conteggi delle basi e le stime della composizione delle basi incerte fornite nel file aggiuntivo 2: Tabella S1 sono stati utilizzati per calcolare il peso di ogni cromosoma, ottenendo i risultati mostrati nella Tabella 2. Le somme di lunghezza e peso dei 24 cromosomi (22 autosomi e cromosomi X e Y) sono state utilizzate per stimare proporzionalmente la lunghezza e il peso delle basi non posizionate, migliorando la precisione del calcolo del genoma intero (Tabella 2). I dati per l’assemblaggio precedente (GRCh37.p13) sono riportati anche nel file aggiuntivo 3: Tabella S2 e nel file aggiuntivo 4: Tabella S3. I cromosomi che variano in misura maggiore tra le due versioni di assemblaggio sono i cromosomi 9 e Y (GRCh38 ha 2,8 Mb e 2,1 Mb in meno di GRCh37, rispettivamente) e i cromosomi 17 e 18 (GRCh38 ha 2,1 Mb e 2,3 Mb in più di GRCh37, rispettivamente).
Considerando una lunghezza media in una cellula diploide di 206.62 cm e l’ultima stima di una media di 3 × 1012 cellule nucleate per un essere umano di riferimento, l’estensione totale in lunghezza di tutte le molecole di DNA nucleare presenti in un singolo individuo umano è di circa 6,20 miliardi di km (6,20 × 1012 m) ed è sufficiente a coprire la distanza Terra-Sole (https://cneos.jpl.nasa.gov/glossary/au.html) più di 41 volte. Considerando un peso medio in una cellula diploide di 6,46 pg, il peso del genoma sommato in tutte le cellule umane nucleate sarebbe di circa 19,39 g, quasi il peso di 100 carati (https://sizes.com/units/carat.htm).
Il genoma mitocondriale
Applicando tutti i calcoli precedentemente effettuati per il genoma nucleare, sono stati stimati la lunghezza, il peso e il contenuto di GC del mtDNA umano (Tabella 2).
In media, una cellula umana potrebbe contenere da un minimo di 2.845.394 ± 204.296 bp, 0,09 ± 0,0067 cm e 0,0029 ± 0,00021 pg a un massimo di 110.742.060 ± 4.568.736,06 bp, 3,62 ± 0,15 cm e 0,11 ± 0,0047 pg di mtDNA in totale, a seconda dell’incertezza del numero di molecole di DNA per cellula (Additional file 1: Additional Methods). Pertanto, il mtDNA, nonostante le sue dimensioni siano molto ridotte rispetto a quelle del DNA nucleare (1/195.663 rispetto al genoma nucleare aploide), costituisce una quota significativa del DNA totale di una cellula umana: circa 0,90-1,21% (cellula diploide), essendo in grado di rappresentare almeno il 52.03% del DNA nel caso di un ovocita maturo.
Analisi del contenuto di GC
Il contenuto di GC umano calcolato tra le basi certe (A, T, W, G, C e S) contate nei 24 cromosomi umani, escludendo le 150.630.700 basi incerte, è mostrato nella tabella 2 (file addizionale 4: tabella S3 per GRCh37.p13). Tra le altre specie studiate, i numeri di cromosomi calcolati, le lunghezze bp del genoma totale e il contenuto di GC genomico (Tabella 3) sono in accordo con i rapporti precedenti (File aggiuntivo 5: Tabella S4).
Sindrome di Down umana (DS) Acute Megakaryoblastic Leukemia (AMKL) blasti e megacarioblasti euploide (MK) mappe trascrittoma hanno un valore di espressione in entrambe le condizioni insieme a sequenze di mRNA disponibili per 16.547 geni. Questo valore per l’ippocampo umano intero e le mappe del trascrittoma del cervello intero è di 17.579 geni. Tra le altre specie studiate, questo valore è di 6642 geni per il cervello di D. rerio, 19.281 per C. elegans, 4673 per S. cerevisiae e 2426 per E. coli. I contenuti di mRNA GC calcolati in questi sottoinsiemi utilizzando il software TGCA sono riportati nella tabella 3. Per ogni condizione biologica, ogni conteggio assoluto di mRNA GC è stato poi moltiplicato per il valore di espressione corrispondente. La somma di questi valori relativi ad ogni mappa trascrittoma dà il contenuto trascrittomico GC (Tabella 3). mRNA e contenuti trascrittomico GC per ogni cromosoma in DS-AMKL e condizioni MK sono riportati nel file aggiuntivo 6: Tabella S5. La condizione DS-AMKL ha 7 cromosomi (9, 11, 20, 17, 16, 22, 19) con un contenuto trascrittomico GC superiore al 48,80 che è il mRNA GC % totale (il massimo è 56,26% di chr19), mentre la condizione MK ha 9 cromosomi (7, 15, 9, 11, 20, 17, 22, 16, 19) con un contenuto trascrittomico GC superiore a quel valore (il massimo è 59,02% di chr19, che è un valore molto alto).
Discussione
In questo lavoro abbiamo determinato, al meglio delle nostre conoscenze, i parametri fondamentali che descrivono il genoma umano normale di riferimento: la lunghezza, espressa sia in termini di bp che di unità di lunghezza (cm, m), il peso (in unità di massa, pg) e il contenuto relativo di GC espresso in percentuale, per l’intero genoma nucleare umano, per ogni cromosoma e per il mtDNA.
Abbiamo basato i nostri calcoli sull’assemblaggio GRCh38, che è più lungo e più contiguo delle precedenti versioni dell’assemblaggio di riferimento e fornisce per la prima volta una rappresentazione basata sulla sequenza per le caratteristiche genomiche come i centromeri e i telomeri, che, sebbene variabili tra i tipi di cellule e le età, influenzerebbero le nostre stime in piccola misura. Tuttavia, la diversità genetica umana va dalla variazione del singolo nucleotide ai grandi eventi cromosomici. Dopo il sequenziamento di 1000 genomi umani, una recente analisi ha stimato ~ 20 milioni di basi di variazione di sequenza in un tipico genoma diploide. Applicando questo ordine di grandezza di variazione alle nostre stime, si può assumere una variabilità proporzionale tra gli individui di ± 0,65 cm e 0,02 pg per la lunghezza e il peso di un genoma diploide medio umano.
I nostri risultati non sono lontani da precedenti stime approssimative (Tabella 1), tuttavia la determinazione più precisa della lunghezza e del peso del genoma umano potrebbe offrire possibilità interessanti. Una recente analisi di 70 genomi dai procarioti ai primati ha mostrato che possono essere state trovate cinque leggi informative sulla complessità della struttura del genoma, suggerite da indici basati sul valore k = lg2(n), dove k è la lunghezza di una stringa che si verifica nel genoma e n è la lunghezza del genoma. Applicare la nostra analisi ad altri genomi sarebbe utile per aggiornare questi indici. Un’altra possibilità interessante offerta dalla conoscenza della lunghezza del genoma nucleare umano è la derivazione del volume totale del DNA umano, al fine di stimare l’efficienza del DNA nella memorizzazione dei dati, risultata essere dell’ordine di 104 volte superiore rispetto ai dischi rigidi più avanzati attualmente (file aggiuntivo 7: Discussione). Il peso del genoma è un parametro utile per la correlazione con i rendimenti di estrazione del DNA attraverso diversi metodi.
Per quanto riguarda l’analisi del contenuto di GC a livello genomico, i nostri risultati sono in accordo con un recente studio. Attraverso l’implementazione del software TGCA abbiamo anche determinato il contenuto di GC a livello di mRNA e trascrittomica per la prima volta, un concetto nuovo che proponiamo qui, che è la percentuale di GC calcolata nella quantità di mRNA effettivamente espresso in un tessuto. Il contenuto genomico umano di GC risulta essere molto più basso del contenuto di mRNA GC. Il contenuto di mRNA GC è a sua volta simile al contenuto trascrittomico di GC. Questo è stato confermato anche in D. rerio e C. elegans e in misura minore in S. cerevisiae e in E. coli. Nel complesso, sembra che la composizione GC dei geni altamente e scarsamente espressi in tessuti specifici influenzi il contenuto GC dell’mRNA in piccola misura e che possa esistere una compensazione globale tra loro.
Confrontando diverse condizioni biologiche, la più grande deviazione dal contenuto GC dell’mRNA è stata trovata in una condizione di aneuploidia e leucemia (DS-AMKL). È interessante notare che il contenuto trascrittomico GC di DS-AMKL sbanda in misura maggiore dal contenuto trascrittomico GC della controparte sana euploide delle cellule MK. Lavori recenti condotti su soggetti DS hanno mostrato alterazioni tipiche del metaboloma e dell’intero trascrittoma. Il contenuto di GC del cromosoma 21 è uno dei più vicini al contenuto medio di GC genomico, quindi la presenza di una terza copia del cromosoma 21 non causerebbe un grande cambiamento nella composizione di GC a livello genomico. Poiché la duplicazione di almeno una regione limitata del cromosoma 21 umano è associata alla DS, sono necessari ulteriori studi per determinare se la duplicazione di questa regione del cromosoma 21 e/o la condizione di leucemia è responsabile di questo modello di deviazione. Per esempio, un lavoro recente ha mostrato un’alta espressione di mRNA ad alto contenuto di GC nel trascrittoma delle lesioni della psoriasi, mentre le lesioni risolutive avevano una bassa espressione di questi mRNA. Un’analisi più approfondita sarà necessaria per convalidare l’uso di questi indici come indicatori nel confronto della malattia rispetto alle condizioni normali.
La determinazione del contenuto di GC genomico, mRNA e trascrittomico può essere utile nelle analisi di sequenziamento del DNA e dell’RNA dove è stato documentato un bias del contenuto di GC per la tecnologia di sequenziamento Illumina, probabilmente introdotto nella fase di preparazione della libreria, con conseguente confondimento degli studi sul numero di copie del DNA e delle stime di fold-change di espressione.
In conclusione, forniamo un aggiornamento sui parametri fondamentali del genoma umano e una prima caratterizzazione del contenuto di GC dell’mRNA e del trascrittoma. I nostri risultati possono rappresentare una solida base per ulteriori indagini sulla genomica umana strutturale e funzionale, fornendo anche un quadro per l’analisi comparativa di altri genomi.