Módszerek
Az emberi genom hosszának és súlyának számítása
A 24 emberi kromoszóma és mtDNS szekvencia hosszát centiméterben (cm) és súlyát pikogrammban (pg) számoltuk ki a Additional file 1: Additional Methods című dokumentumban részletezett módon.
GC-tartalomelemzés
A genomi GC-tartalmat a 24 kromoszómára és az mtDNS-re vonatkozóan az 1. kiegészítő fájl: Kiegészítő módszerek című fejezetben részletezett módon számoltuk ki az egyes bázisok között.
A “Transcriptomic GC Analysis” (TGCA) szoftvert itt fejlesztettük ki a GC-tartalom lehetséges változásának tanulmányozására a teljes transzkriptom expressziójában.
A humán kvantitatív transzkriptom térképeket korábban nyilvánosan elérhető microarray adathalmazokból nyertük, amelyeket a TRAM (Transcriptome Mapper) szoftverrel elemeztünk a leírtak szerint . Mivel a kvantitatív génexpressziós értékek előre jelezhetik az adott emberi szövetet nagy valószínűséggel érintő mutációs hatásokat , összehasonlítottunk egy patológiás sejttípust a normális megfelelőjével és egy teljes szervet az egyik alrégiójával (Additional file 1: Additional Methods). Minden egyes elemzéshez csak olyan géneket használtunk, amelyekre mindkét biológiai körülmények között rendelkezésre áll expressziós érték. Minden génhez a leghosszabb humán mRNS-szekvenciát a humán 5′_ORF_Extender szoftver legújabb verziójából nyertük (Additional file 1: Additional Methods).
Mivel a TRAM és az 5′_ORF_Extender más organizmusokra is alkalmazható, maga a TGCA szoftver úgy lett implementálva, hogy könnyen használható legyen bármely organizmus bármely szekvencia- és expressziós adatkészletével. Így a GC-számításokat más reprezentatív fajok genomjain is elvégeztük: Danio rerio, Caenorhabditis elegans, Saccharomyces cerevisiae és Escherichia coli (Additional file 1: Additional Methods).
Eredmények
Az emberi nukleáris genom hossza és tömege
Az egyes kromoszómák hosszát bp-ban és cm-ben a 2. táblázat tartalmazza. Az egyes kromoszómák tömegének kiszámításához a 2. kiegészítő fájlban: S1 táblázatban megadott egyes bázisszámokat és bizonytalan bázisösszetétel-becsléseket használtuk, így kaptuk a 2. táblázatban látható eredményeket. A 24 kromoszóma (22 autoszóma, valamint az X- és Y-kromoszómák) hossz- és súlyösszegeit használtuk a nem elhelyezett bázisok hosszának és súlyának arányos becsléséhez, javítva a teljes genom számítási pontosságát (2. táblázat). A korábbi összeállítás (GRCh37.p13) adatait a 3. kiegészítő fájl: S2. táblázat és a 4. kiegészítő fájl: S3. táblázat is tartalmazza. A két összeállítási változat között nagyobb mértékben eltérő kromoszómák a 9. és Y kromoszómák (a GRCh38 2,8 Mb-tal, illetve 2,1 Mb-tal kevesebbet tartalmaz, mint a GRCh37), valamint a 17. és 18. kromoszómák (a GRCh38 2,1 Mb-tal, illetve 2,3 Mb-tal többet tartalmaz, mint a GRCh37).
A diploid sejtek átlagos hosszát tekintve 206.62 cm és a legfrissebb becslések szerint egy referencia ember esetében átlagosan 3 × 1012 nukleáris sejt van , az egyetlen emberi egyedben található összes nukleáris DNS molekula teljes hossza körülbelül 6,20 milliárd km (6,20 × 1012 m), ami elegendő a Föld-Nap távolság (https://cneos.jpl.nasa.gov/glossary/au.html) több mint 41-szeresének megtételéhez. Ha egy diploid sejt átlagos tömegét 6,46 pg-nak tekintjük, akkor a genom tömege a nukleált emberi sejtekre összegezve körülbelül 19,39 g lenne, ami majdnem 100 karát súlyának felel meg (https://sizes.com/units/carat.htm).
A mitokondriális genom
A korábban a nukleáris genomra végzett összes számítást alkalmazva becsültük meg az emberi mtDNS hosszát, tömegét és GC-tartalmát (2. táblázat).
Egy emberi sejt átlagosan minimum 2 845 394 ± 204 296 bp, 0,09 ± 0,0067 cm és 0,0029 ± 0,00021 pg, maximum 110 742 060 ± 4 568 736,06 bp, 3,62 ± 0,15 cm és 0,11 ± 0,0047 pg mtDNS-t tartalmazhat összesen, attól függően, hogy a sejtenkénti DNS-molekulák száma milyen bizonytalan (Additional file 1: Additional Methods). Az mtDNS tehát annak ellenére, hogy mérete a nukleáris DNS-hez képest jelentősen csökkent (1/195,663 a haploid nukleáris genomhoz képest), az emberi sejt teljes DNS-ének jelentős részét teszi ki: körülbelül 0,90-1,21%-át (diploid sejt), és legalább 52.03%-át teszi ki a DNS-nek egy érett petesejt esetében.
GC-tartalomelemzés
A 24 emberi kromoszómában megszámolt bizonyos bázisok (A, T, W, G, C és S) között kiszámított emberi GC-tartalmakat – a 150 630 700 bizonytalan bázis kivételével – a 2. táblázat mutatja (Additional file 4: S3 táblázat a GRCh37.p13 esetében). A többi vizsgált faj esetében a számított kromoszómaszámok, a teljes genom bp-hossza és a genomi GC-tartalom (3. táblázat) összhangban van a korábbi jelentésekkel (Additional file 5: Table S4).
A humán Down-szindrómás (DS) akut megakarioblasztos leukémia (AMKL) blastok és euploid megakarioblasztok (MK) transzkriptomtérképek mindkét állapotban rendelkeznek expressziós értékkel, 16 547 génre rendelkezésre álló mRNS-szekvenciákkal együtt. Ez az érték a teljes emberi hippokampusz és a teljes agy transzkriptom-térképek esetében 17 579 gén. A többi vizsgált faj esetében ez az érték a D. rerio agya esetében 6642 gén, a C. elegans esetében 19 281 gén, a S. cerevisiae esetében 4673 gén és az E. coli esetében 2426 gén. A TGCA szoftver segítségével kiszámított mRNS GC-tartalmakat ezekben az alcsoportokban a 3. táblázat tartalmazza. Minden egyes biológiai feltétel esetében az egyes mRNS GC abszolút számokat ezután megszoroztuk a megfelelő expressziós értékkel. Ezeknek az értékeknek az egyes transzkriptom-térképekre vonatkozó összege adja a transzkriptomikus GC-tartalmat (3. táblázat). mRNS és transzkriptomikus GC-tartalmak minden kromoszómára DS-AMKL és MK körülmények között a 6. kiegészítő fájlban találhatók: S5. táblázat. A DS-AMKL állapotban 7 kromoszómának (9, 11, 20, 17, 16, 22, 19) transzkriptomikus GC-tartalma magasabb, mint 48,80, ami a teljes mRNS GC % (a maximum a chr19 56,26%-a), míg az MK állapotban 9 kromoszómának (7, 15, 9, 11, 20, 17, 22, 16, 19) transzkriptomikus GC-tartalma magasabb ennél az értéknél (a maximum a chr19 59,02%-a, ami nagyon magas érték).
Megbeszélés
Ezzel a munkával legjobb tudásunk szerint meghatároztuk a normál emberi referencia genomot leíró alapvető paramétereket: a hosszat, mind bp-ban, mind hosszegységben (cm, m) kifejezve, a tömeget (tömegegységben, pg) és a relatív GC-tartalmat százalékban kifejezve, a teljes emberi nukleáris genomra, az egyes kromoszómákra és az mtDNS-re vonatkozóan.
Kiszámításainkat a GRCh38 összeállításra alapoztuk, amely hosszabb és összefüggőbb, mint a korábbi referencia összeállítási verziók, és első alkalommal biztosít szekvenciaalapú reprezentációt az olyan genomiális jellemzők, mint a centromerek és telomerek számára , amelyek – bár sejttípusonként és életkoronként változóak – kis mértékben befolyásolnák becsléseinket. Az emberi genetikai sokféleség azonban az egynukleotidos variációtól a nagy kromoszómális eseményekig terjed . Az 1000 emberi genom szekvenálását követően egy közelmúltbeli elemzés szerint ~ 20 millió bázisnyi szekvencia-variáció található egy tipikus diploid genomban . Ezt a nagyságrendet alkalmazva a mi becsléseinkre, az egyének közötti ± 0,65 cm és 0,02 pg arányos variabilitás feltételezhető az emberi átlagos diploid genom hosszára és súlyára vonatkozóan.
Eredményeink nem állnak messze a korábbi durva becslésektől (1. táblázat), azonban az emberi genom hosszának és súlyának pontosabb meghatározása érdekes lehetőségeket kínálhat. A prokariótáktól a főemlősökig terjedő 70 genom közelmúltbeli elemzése azt mutatta, hogy a genomszerkezet komplexitására vonatkozóan öt információs törvényszerűséget lehetett találni , amelyeket a k = lg2(n) értéken alapuló indexek sugallnak, ahol k a genomban előforduló string hossza, n pedig a genom hossza . Elemzésünket más genomokra alkalmazva hasznos lenne frissíteni ezeket az indexeket. Egy másik érdekes lehetőség, amelyet az emberi nukleáris genom hosszának ismerete kínál, az emberi DNS teljes térfogatának levezetése, a DNS adattárolási hatékonyságának becslése érdekében, amely 104-szeres nagyságrendűnek bizonyult a jelenleg legfejlettebb merevlemezekhez képest (Additional file 7: Discussion). A genomsúly egy olyan paraméter, amely a különböző módszerekkel történő DNS-kivonás hozamával való korreláció szempontjából hasznos .
A genomi szintű GC-tartalomelemzés tekintetében eredményeink összhangban vannak egy nemrégiben végzett vizsgálattal . A TGCA szoftver implementálásával először határoztuk meg a GC-tartalmat mRNS és transzkriptomikai szinten is, egy új koncepciót, amit itt javasolunk, ami a GC százalékos arányát számolva a szövetben ténylegesen kifejezett mRNS mennyiségét jelenti. A humán genomi GC-tartalom eredményeink szerint jóval alacsonyabb, mint az mRNS GC-tartalom. mRNS GC-tartalom viszont hasonló a transzkriptomi GC-tartalomhoz. Ezt a D. rerio és a C. elegans, valamint kisebb mértékben a S. cerevisiae és az E. coli esetében is megerősítették. Összességében úgy tűnik, hogy az egyes szövetekben magasan és gyengén expresszálódó gének GC-összetétele kis mértékben befolyásolja az mRNS GC-tartalmát, és ezek között globális kompenzáció állhat fenn.
A különböző biológiai állapotokat összehasonlítva a legnagyobb eltérést az mRNS GC-tartalmától az aneuploidia és leukémia állapotában (DS-AMKL) találtuk. Érdekes módon a DS-AMKL transzkriptomikus GC-tartalma nagyobb mértékben tér el az MK sejtek egészséges euploid megfelelőjének transzkriptomikus GC-tartalmától. A DS alanyokon végzett legújabb munkák a metabolizmus és a teljes transzkriptom tipikus változásait mutatták . A 21. kromoszóma GC-tartalma az egyik legközelebbi az átlagos genomi GC-tartalomhoz, így a 21. kromoszóma egy harmadik példányának jelenléte nem okozna nagy változást a GC-összetételben genomi szinten. Mivel az emberi 21-es kromoszóma legalább egy korlátozott régiójának duplikációja összefügg a DS-sel , további vizsgálatokra van szükség annak meghatározására, hogy a 21-es kromoszóma e régiójának duplikációja és/vagy a leukémiás állapot felelős-e ezért az eltérési mintázatért. Egy nemrégiben végzett munka például kimutatta a magas GC-tartalmú mRNS-ek magas expresszióját a pikkelysömörös elváltozás transzkriptomjában, míg a feloldódó elváltozásokban ezen mRNS-ek alacsony expressziója volt . Alaposabb elemzésre lesz szükség ahhoz, hogy validáljuk ezen indexek indikátorként való használatát a betegség és a normális állapotok összehasonlításában.
A genomi, mRNS és transzkriptomi GC-tartalom meghatározása hasznos lehet a DNS- és RNS-szekvenálási elemzésekben, ahol az Illumina szekvenálási technológia GC-tartalom torzítása dokumentáltan valószínűleg a könyvtárkészítési lépésben kerül bevezetésre, ami zavaró DNS-kópiaszám-vizsgálatokat és expressziós fold-change becsléseket eredményez .
Végeredményben frissítettük a humán genom alapvető paramétereit, valamint az mRNS és a transzkriptom GC-tartalmának első jellemzését. Eredményeink szilárd alapot jelenthetnek a humán strukturális és funkcionális genomika további vizsgálataihoz, miközben keretet biztosítanak más genomok összehasonlító elemzéséhez is.