Metode
Calculează lungimea și greutatea genomului uman
Lungimile în centimetri (cm) și greutatea în picograme (pg) ale tuturor celor 24 de secvențe de cromozomi umani și ADNmt au fost calculate după cum este detaliat în fișierul suplimentar 1: Metode suplimentare.
Analiza conținutului GC
Contenutul GC genomic a fost calculat între anumite baze pentru cei 24 de cromozomi și pentru mtADN, așa cum este detaliat în Fișierul suplimentar 1: Metode suplimentare.
Programul software „Transcriptomic GC Analysis” (TGCA) a fost dezvoltat aici pentru a studia posibila variație a conținutului GC în expresia transcriptomilor întregi.
Hașele transcriptomului cantitativ uman au fost obținute anterior din seturi de date de microarray disponibile public, analizate prin intermediul software-ului TRAM (Transcriptome Mapper), așa cum este descris . Deoarece valorile cantitative ale expresiei genice pot anticipa efectele mutaționale care vor afecta cel mai probabil un anumit țesut uman , am comparat un tip celular patologic cu omologul său normal și un organ întreg cu una dintre subregiunile sale (Fișier suplimentar 1: Metode suplimentare). Pentru fiecare analiză, au fost utilizate numai genele pentru care este disponibilă o valoare de expresie în ambele condiții biologice. Pentru fiecare genă, cea mai lungă secvență de ARNm uman a fost obținută din cea mai recentă versiune a software-ului human 5′_ORF_Extender (Fișier suplimentar 1: Metode suplimentare).
Din moment ce TRAM și 5′_ORF_Extender au fost implementate pentru alte organisme , software-ul TGCA însuși a fost implementat cu scopul de a fi utilizat cu ușurință cu orice set de date de secvență și expresie din orice organism. Astfel, am efectuat calculele GC pe genomurile altor specii reprezentative: Danio rerio, Caenorhabditis elegans, Saccharomyces cerevisiae și Escherichia coli (Fișier suplimentar 1: Metode suplimentare).
Rezultate
Lungimea și greutatea genomului nuclear uman
Lungimile cromozomilor individuali în pb și cm sunt prezentate în tabelul 2. Anumite numere de baze și estimări incerte ale compoziției bazelor prezentate în Fișierul suplimentar 2: Tabelul S1 au fost utilizate pentru a calcula greutatea fiecărui cromozom, obținându-se rezultatele prezentate în Tabelul 2. Sume ale lungimilor și greutăților celor 24 de cromozomi (22 de autosomi și cromozomii X și Y) au fost utilizate pentru a estima proporțional lungimea și greutatea bazelor neplasate, îmbunătățind precizia calculului întregului genom (tabelul 2). Datele pentru ansamblul anterior (GRCh37.p13) sunt, de asemenea, prezentate în Fișierul suplimentar 3: Tabelul S2 și Fișierul suplimentar 4: Tabelul S3. Cromozomii care variază într-o măsură mai mare între cele două versiuni de asamblare sunt cromozomii 9 și Y (GRCh38 are cu 2,8 Mb și, respectiv, 2,1 Mb mai puțin decât GRCh37) și cromozomii 17 și 18 (GRCh38 are cu 2,1 Mb și, respectiv, 2,3 Mb mai mult decât GRCh37).
Considerând o lungime medie într-o celulă diploidă de 206.62 cm și cea mai recentă estimare a unei medii de 3 × 1012 celule nucleate pentru o ființă umană de referință , extensia totală în lungime a tuturor moleculelor de ADN nuclear prezente într-un singur individ uman este de aproximativ 6,20 miliarde de km (6,20 × 1012 m) și este suficientă pentru a acoperi distanța Pământ-Soare (https://cneos.jpl.nasa.gov/glossary/au.html) de peste 41 de ori. Luând în considerare o greutate medie într-o celulă diploidă de 6,46 pg, greutatea genomului însumată la nivelul celulelor umane nucleate ar fi de aproximativ 19,39 g, aproape cât greutatea a 100 de carate (https://sizes.com/units/carat.htm).
Genomul mitocondrial
Aplicând toate calculele efectuate anterior pentru genomul nuclear, au fost estimate lungimea, greutatea și conținutul de GC al ADNmt uman (Tabelul 2).
În medie, o celulă umană ar putea conține de la un minim de 2.845.394 ± 204.296 bp, 0,09 ± 0,0067 cm și 0,0029 ± 0,00021 pg până la un maxim de 110.742.060 ± 4.568.736,06 bp, 3,62 ± 0,15 cm și 0,11 ± 0,0047 pg de ADNmt în total, în funcție de incertitudinea privind numărul de molecule de ADN pe celulă (Fișier suplimentar 1: Metode suplimentare). Prin urmare, ADNmt, în ciuda faptului că dimensiunea sa este mult redusă în comparație cu cele ale ADN-ului nuclear (1/195.663 în comparație cu genomul nuclear haploid), constituie o parte semnificativă din ADN-ul total al unei celule umane: aproximativ 0,90-1,21 % (celulă diploidă), fiind capabil să reprezinte cel puțin 52.03% din ADN în cazul unui ovocit matur.
Analiza conținutului de GC
Contenutul de GC uman calculat printre bazele certe (A, T, W, G, C și S) numărate în cei 24 de cromozomi umani, excluzând cele 150.630.700 de baze incerte, este prezentat în tabelul 2 (Fișierul suplimentar 4: Tabelul S3 pentru GRCh37.p13). În ceea ce privește celelalte specii investigate, numerele de cromozomi calculate, lungimile totale ale genomului bp și conținuturile GC genomice (Tabelul 3) sunt în conformitate cu rapoartele anterioare (Fișier suplimentar 5: Tabelul S4).
Hașele transcriptomice ale blastelor umane cu sindrom Down (DS) și ale leucemiei acute megacarioblastice (AMKL) și ale megakarioblastelor euploide (MK) au o valoare de expresie în ambele afecțiuni, împreună cu secvențe de ARNm disponibile pentru 16.547 de gene. Această valoare pentru hărțile transcriptomice ale hipocampusului uman întreg și ale creierului întreg este de 17.579 de gene. Dintre celelalte specii investigate, această valoare este de 6642 de gene pentru creierul D. rerio, 19 281 pentru C. elegans, 4673 pentru S. cerevisiae și 2426 pentru E. coli. Conținutul GC al ARNm calculat în aceste subseturi cu ajutorul software-ului TGCA este prezentat în tabelul 3. Pentru fiecare condiție biologică, fiecare număr absolut de GC mARN a fost apoi înmulțit cu valoarea de expresie corespunzătoare. Suma acestor valori aferente fiecărei hărți transcriptomice oferă conținutul GC transcriptomic (tabelul 3). Conținutul GC mRNA și transcriptomic pentru fiecare cromozom în condițiile DS-AMKL și MK este prezentat în fișierul suplimentar 6: tabelul S5. Condiția DS-AMKL are 7 cromozomi (9, 11, 20, 17, 16, 22, 19) cu un conținut GC transcriptomic mai mare de 48,80, care reprezintă procentul GC total al ARNm (maximul este de 56,26 % din chr19), în timp ce condiția MK are 9 cromozomi (7, 15, 9, 11, 11, 20, 17, 22, 16, 19) cu un conținut GC transcriptomic mai mare decât această valoare (maximul este de 59,02 % din chr19, ceea ce reprezintă o valoare foarte mare).
Discuție
În această lucrare am determinat, după cunoștințele noastre, parametrii de bază care descriu genomul uman normal de referință: lungimea, exprimată atât în bp cât și în unitatea de lungime (cm, m), greutatea (în unitatea de masă, pg) și conținutul relativ de GC exprimat în procente, pentru întregul genom nuclear uman, pentru fiecare cromozom și pentru ADNmt.
Ne-am bazat calculele noastre pe ansamblul GRCh38, care este mai lung și mai contiguu decât versiunile anterioare ale ansamblului de referință și oferă pentru prima dată o reprezentare bazată pe secvențe pentru caracteristici genomice precum centromerii și telomerii , care, deși variază în funcție de tipurile de celule și de vârste, ar afecta într-o mică măsură estimările noastre. Cu toate acestea, diversitatea genetică umană variază de la variația unui singur nucleotid la evenimente cromozomiale mari . În urma secvențierii a 1000 de genomuri umane , o analiză recentă a estimat ~ 20 de milioane de baze de variație a secvenței într-un genom diploid tipic . Aplicând acest ordin de mărime al variației la estimările noastre, se poate presupune o variabilitate proporțională între indivizi de ± 0,65 cm și 0,02 pg pentru lungimea și greutatea unui genom uman diploid mediu.
Rezultatele noastre nu sunt departe de estimările aproximative anterioare (tabelul 1), însă determinarea mai precisă a lungimii și greutății genomului uman ar putea oferi posibilități interesante. O analiză recentă a 70 de genomuri, de la procariote la primate, a arătat că este posibil să se fi găsit cinci legi informaționale despre complexitatea structurii genomului , sugerate de indici bazați pe valoarea k = lg2(n), unde k este lungimea unui șir care apare în genom și n este lungimea genomului . Aplicarea analizei noastre la alte genomuri ar fi utilă pentru a actualiza acești indici. O altă posibilitate interesantă oferită de cunoașterea lungimii genomului nuclear uman este derivarea volumului total de ADN uman, pentru a estima eficiența ADN-ului în stocarea datelor, care s-a dovedit a fi de ordinul a 104 ori superioară în comparație cu cele mai avansate hard disk-uri din prezent (Fișier suplimentar 7: Discuție). Greutatea genomului este un parametru util pentru corelația cu randamentele de extracție a ADN-ului prin diferite metode .
În ceea ce privește analiza conținutului de GC la nivel genomic, rezultatele noastre sunt în concordanță cu un studiu recent . Prin implementarea software-ului TGCA am determinat pentru prima dată și conținutul de GC la nivel de ARNm și transcriptomic, un concept nou pe care îl propunem aici, care este procentul de GC calculat în cantitatea de ARNm efectiv exprimată într-un țesut. Conținutul GC genomic uman rezultă a fi mult mai mic decât conținutul GC al ARNm. conținutul GC al ARNm este, la rândul său, similar cu conținutul GC transcriptomic. Acest lucru a fost confirmat și la D. rerio și C. elegans și, într-o măsură mai mică, la S. cerevisiae și E. coli. În general, se pare că compoziția GC a genelor puternic și slab exprimate în anumite țesuturi afectează într-o mică măsură conținutul GC al ARNm și că ar putea exista o compensare globală între ele.
Comparând diferite condiții biologice, cea mai mare abatere de la conținutul GC al ARNm a fost constatată într-o condiție de aneuploidie și leucemie (DS-AMKL). În mod interesant, conținutul GC transcriptomic DS-AMKL deviază într-o măsură mai mare de la conținutul GC transcriptomic al omologului euploid sănătos al celulelor MK. Lucrări recente efectuate pe subiecți DS au arătat modificări tipice ale metabolomului și ale întregului transcriptom . Conținutul de GC al cromozomului 21 este unul dintre cele mai apropiate de conținutul mediu de GC genomic, astfel încât prezența unei a treia copii a cromozomului 21 nu ar provoca o mare schimbare în compoziția GC la nivel genomic. Deoarece duplicarea cel puțin a unei regiuni restrânse a cromozomului 21 uman este asociată cu SD , sunt necesare studii suplimentare pentru a determina dacă duplicarea acestei regiuni a cromozomului 21 și/sau afecțiunea leucemică este responsabilă pentru acest model de deviere. De exemplu, o lucrare recentă a arătat o expresie ridicată a ARNm cu conținut ridicat de GC în transcriptomul leziunilor de psoriazis, în timp ce leziunile de rezolvare aveau o expresie scăzută a acestor ARNm . Vor fi necesare analize mai aprofundate pentru a valida utilizarea acestor indici ca indicatori în compararea condițiilor de boală față de cele normale.
Determinarea conținutului GC genomic, ARNm și transcriptomic poate fi utilă în analizele de secvențiere a ADN și ARN, unde a fost documentată prejudecata conținutului GC pentru tehnologia de secvențiere Illumina ca fiind probabil introdusă la etapa de pregătire a bibliotecii, ceea ce are ca rezultat confundarea studiilor privind numărul de copii de ADN și a estimărilor privind schimbările fold-change de expresie .
În concluzie, oferim o actualizare a parametrilor fundamentali ai genomului uman și o primă caracterizare a conținutului GC al ARNm și al transcriptomului. Rezultatele noastre pot reprezenta o bază solidă pentru investigații ulterioare privind genomica structurală și funcțională umană, oferind în același timp un cadru pentru analiza comparativă a altor genomuri.
.