Metody
Obliczenia długości i wagi ludzkiego genomu
Długości w centymetrach (cm) i waga w pikogramach (pg) wszystkich 24 ludzkich sekwencji chromosomów i mtDNA zostały obliczone jak wyszczególniono w pliku dodatkowym 1: Additional Methods.
Analiza zawartości GC
Genomowa zawartość GC została obliczona wśród określonych zasad dla 24 chromosomów i dla mtDNA, jak wyszczególniono w pliku dodatkowym 1: Metody dodatkowe.
Oprogramowanie „Transcriptomic GC Analysis” (TGCA) zostało opracowane tutaj w celu zbadania możliwej zmienności zawartości GC w ekspresji całych transkryptomów.
Ludzkie ilościowe mapy transkryptomów zostały wcześniej uzyskane z publicznie dostępnych zestawów danych mikromacierzy analizowanych za pomocą oprogramowania TRAM (Transcriptome Mapper), jak opisano . Ponieważ ilościowe wartości ekspresji genów mogą przewidywać efekty mutacyjne, które najprawdopodobniej wpłyną na daną tkankę ludzką, porównaliśmy patologiczny typ komórki z jej normalnym odpowiednikiem i cały narząd z jednym z jego subregionów (plik dodatkowy 1: Dodatkowe metody). Dla każdej analizy użyto tylko genów, dla których wartość ekspresji jest dostępna w obu warunkach biologicznych. Dla każdego genu uzyskano najdłuższą sekwencję ludzkiego mRNA z najnowszej wersji oprogramowania human 5′_ORF_Extender (plik dodatkowy 1: Additional Methods).
Ponieważ TRAM i 5′_ORF_Extender zostały zaimplementowane dla innych organizmów, samo oprogramowanie TGCA zostało zaimplementowane z myślą o łatwym użyciu z dowolnym zestawem danych sekwencji i ekspresji dowolnego organizmu. Przeprowadziliśmy więc obliczenia GC na genomach innych reprezentatywnych gatunków: Danio rerio, Caenorhabditis elegans, Saccharomyces cerevisiae i Escherichia coli (plik dodatkowy 1: Additional Methods).
Wyniki
Długość i waga genomu jądrowego człowieka
Długości poszczególnych chromosomów w bp i cm podane są w tabeli 2. Pewne liczby baz i niepewne szacunki składu baz podane w pliku dodatkowym 2: Tabela S1 zostały użyte do obliczenia wagi każdego chromosomu, uzyskując wyniki przedstawione w Tabeli 2. Sumy długości i wagi 24 chromosomów (22 autosomy oraz chromosomy X i Y) zostały użyte w celu proporcjonalnego oszacowania długości i wagi nieumieszczonych baz, poprawiając dokładność obliczeń całego genomu (Tabela 2). Dane dla poprzedniego złożenia (GRCh37.p13) są również podane w pliku dodatkowym 3: Tabela S2 i pliku dodatkowym 4: Tabela S3. Chromosomy różniące się w większym stopniu pomiędzy dwoma wersjami asemblacji to chromosomy 9 i Y (GRCh38 ma odpowiednio 2,8 Mb i 2,1 Mb mniej niż GRCh37) oraz chromosomy 17 i 18 (GRCh38 ma odpowiednio 2,1 Mb i 2,3 Mb więcej niż GRCh37).
Patrząc na średnią długość w komórce diploidalnej wynoszącą 206.62 cm i najnowsze szacunki dotyczące średniej liczby 3 × 1012 komórek jądrowych dla człowieka, całkowite wydłużenie długości wszystkich jądrowych cząsteczek DNA obecnych w pojedynczym człowieku wynosi około 6,20 mld km (6,20 × 1012 m) i jest wystarczające do pokonania odległości Ziemia-Słońce (https://cneos.jpl.nasa.gov/glossary/au.html) ponad 41 razy. Biorąc pod uwagę średnią masę diploidalnej komórki wynoszącą 6,46 pg, masa genomu zsumowana we wszystkich nukleowanych komórkach ludzkich wyniosłaby około 19,39 g, czyli prawie tyle, ile waży 100 karatów (https://sizes.com/units/carat.htm).
Genom mitochondrialny
Przy zastosowaniu wszystkich obliczeń wykonanych wcześniej dla genomu jądrowego, oszacowano długość ludzkiego mtDNA, jego masę i zawartość GC (Tabela 2).
Średnio ludzka komórka mogła zawierać od minimum 2,845,394 ± 204,296 bp, 0,09 ± 0,0067 cm i 0,0029 ± 0,00021 pg do maksimum 110,742,060 ± 4,568,736.06 bp, 3,62 ± 0,15 cm i 0,11 ± 0,0047 pg mtDNA łącznie, w zależności od niepewności liczby cząsteczek DNA na komórkę (plik dodatkowy 1: Additional Methods). Zatem mtDNA, mimo że jego rozmiar jest znacznie zredukowany w porównaniu z DNA jądrowym (1/195,663 w porównaniu z haploidalnym genomem jądrowym), stanowi znaczący udział w całkowitym DNA komórki ludzkiej: około 0,90-1,21% (komórka diploidalna), będąc w stanie reprezentować co najmniej 52.03% DNA w przypadku dojrzałego oocytu.
Analiza zawartości GC
Zawartość GC u człowieka obliczona wśród pewnych zasad (A, T, W, G, C, i S) zliczonych w 24 ludzkich chromosomach z wyłączeniem 150 630 700 niepewnych zasad przedstawiona jest w Tabeli 2 (plik dodatkowy 4: Tabela S3 dla GRCh37.p13). Wśród innych badanych gatunków, obliczone liczby chromosomów, całkowite długości bp genomu i zawartość genomowych GC (Tabela 3) są zgodne z wcześniejszymi doniesieniami (plik dodatkowy 5: Tabela S4).
Ludzkie mapy transkryptomu ostrej białaczki megakaryoblastycznej z zespołem Downa (DS) (AMKL) blastów i euploidalnych megakaryoblastów (MK) mają wartość ekspresji w obu stanach wraz z dostępnymi sekwencjami mRNA dla 16 547 genów. Wartość ta dla map transkryptomu całego ludzkiego hipokampa i całego mózgu wynosi 17 579 genów. Wśród innych badanych gatunków wartość ta wynosi 6642 geny dla mózgu D. rerio, 19 281 dla C. elegans, 4673 dla S. cerevisiae i 2426 dla E. coli. Zawartość GC mRNA obliczona w tych podzbiorach za pomocą programu TGCA podana jest w tabeli 3. Dla każdego warunku biologicznego, każda bezwzględna liczba GC mRNA została następnie pomnożona przez odpowiadającą jej wartość ekspresji. Suma tych wartości odnoszących się do każdej mapy transkryptomu daje transkryptomiczną zawartość GC (Tabela 3). mRNA i transkryptomiczne zawartości GC dla każdego chromosomu w warunkach DS-AMKL i MK są podane w pliku dodatkowym 6: Tabela S5. Warunek DS-AMKL ma 7 chromosomów (9, 11, 20, 17, 16, 22, 19) z transkryptomiczną zawartością GC wyższą niż 48.80, która jest całkowitym mRNA GC % (maksimum to 56.26% chr19), podczas gdy warunek MK ma 9 chromosomów (7, 15, 9, 11, 20, 17, 22, 16, 19) z transkryptomiczną zawartością GC wyższą niż ta wartość (maksimum to 59.02% chr19, co jest bardzo wysoką wartością).
Dyskusja
W niniejszej pracy określiliśmy, zgodnie z naszą najlepszą wiedzą, podstawowe parametry opisujące prawidłowy genom referencyjny człowieka: długość, wyrażoną zarówno w bp, jak i jednostce długości (cm, m), masę (w jednostce masy, pg) oraz względną zawartość GC wyrażoną w procentach, dla całego genomu jądrowego człowieka, dla każdego chromosomu oraz dla mtDNA.
Oparliśmy nasze obliczenia na montażu GRCh38, który jest dłuższy i bardziej przylegający niż poprzednie wersje montażu referencyjnego i zapewnia reprezentację opartą na sekwencji dla cech genomowych, takich jak centromery i telomery po raz pierwszy, które, chociaż zmienne wśród typów komórek i wieku, wpłynęłyby na nasze szacunki w niewielkim stopniu. Jednak ludzka różnorodność genetyczna rozciąga się od zmienności pojedynczego nukleotydu do dużych zdarzeń chromosomalnych . Po sekwencjonowaniu 1000 genomów ludzkich, niedawna analiza oszacowała ~ 20 milionów baz zmienności sekwencji w typowym genomie diploidalnym . Stosując ten rząd wielkości zmienności do naszych szacunków, można założyć proporcjonalną zmienność wśród osobników wynoszącą ± 0,65 cm i 0,02 pg dla długości i wagi ludzkiego średniego genomu diploidalnego.
Nasze wyniki nie są dalekie od wcześniejszych przybliżonych szacunków (Tabela 1), jednak dokładniejsze określenie długości i wagi ludzkiego genomu może oferować interesujące możliwości. Niedawna analiza 70 genomów od prokariotów do naczelnych wykazała, że możliwe jest znalezienie pięciu praw informacyjnych dotyczących złożoności struktury genomu, sugerowanych przez indeksy oparte na wartości k = lg2(n), gdzie k jest długością ciągu występującego w genomie, a n jest długością genomu. Zastosowanie naszej analizy do innych genomów pozwoliłoby na uaktualnienie tych indeksów. Inną interesującą możliwością, jaką daje znajomość długości ludzkiego genomu jądrowego, jest wyznaczenie całkowitej objętości ludzkiego DNA w celu oszacowania wydajności DNA w przechowywaniu danych, która okazała się być rzędu 104 razy większa w porównaniu do najbardziej zaawansowanych obecnie dysków twardych (plik dodatkowy 7: Dyskusja). Waga genomu jest parametrem przydatnym do korelacji z wydajnością ekstrakcji DNA różnymi metodami .
W odniesieniu do analizy zawartości GC na poziomie genomowym, nasze wyniki są zgodne z niedawnymi badaniami . Dzięki zastosowaniu oprogramowania TGCA po raz pierwszy określiliśmy również zawartość GC na poziomie mRNA i transkryptomicznym, co jest nowatorską koncepcją, którą tutaj proponujemy, czyli procentową zawartością GC obliczoną w ilości mRNA rzeczywiście wyrażonego w tkance. Zawartość GC w genomie człowieka jest znacznie niższa niż w mRNA. Zawartość GC w mRNA jest z kolei zbliżona do zawartości GC w transkryptomie. Zostało to potwierdzone również u D. rerio i C. elegans oraz w mniejszym stopniu u S. cerevisiae i E. coli. Ogólnie wydaje się, że skład GC wysoko i słabo ekspresjonowanych genów w poszczególnych tkankach w niewielkim stopniu wpływa na zawartość GC w mRNA i może istnieć globalna kompensacja między nimi.
Porównując różne warunki biologiczne, największe odchylenie od zawartości GC w mRNA stwierdzono w stanie aneuploidii i białaczki (DS-AMKL). Co ciekawe, transkryptomiczna zawartość GC w DS-AMKL w większym stopniu odbiega od transkryptomicznej zawartości GC w zdrowym, euploidalnym odpowiedniku komórek MK. Ostatnie prace przeprowadzone na osobach z DS wykazały typowe zmiany w metabolomie i całym transkryptomie. Zawartość GC w chromosomie 21 jest jedną z najbardziej zbliżonych do średniej zawartości GC w genomie, dlatego obecność trzeciej kopii chromosomu 21 nie spowodowałaby dużych zmian w składzie GC na poziomie genomowym. Ponieważ duplikacja co najmniej ograniczonego regionu ludzkiego chromosomu 21 jest związana z DS , konieczne są dalsze badania w celu ustalenia, czy duplikacja tego regionu chromosomu 21 i/lub stan białaczki są odpowiedzialne za ten wzór odchyleń. Na przykład, ostatnia praca wykazała wysoką ekspresję mRNA o wysokiej zawartości GC w transkryptomie zmian łuszczycowych, podczas gdy zmiany ustępujące miały niską ekspresję tych mRNA. Bardziej dogłębna analiza będzie potrzebna do zatwierdzenia użycia tych indeksów jako wskaźników w porównaniu choroby z normalnym stanem.
Genomiczne, mRNA i transkryptomiczne określenie zawartości GC może być użyteczne w analizach sekwencjonowania DNA i RNA, gdzie GC content bias dla technologii sekwencjonowania Illumina został udokumentowany jako prawdopodobnie wprowadzony na etapie przygotowania biblioteki, skutkując mylącymi badaniami liczby kopii DNA i oszacowaniami fałdowej zmiany ekspresji.
W podsumowaniu przedstawiamy aktualizację podstawowych parametrów ludzkiego genomu i pierwszą charakterystykę zawartości GC w mRNA i transkryptomie. Nasze wyniki mogą stanowić solidną podstawę do dalszych badań nad strukturalną i funkcjonalną genomiką człowieka, zapewniając jednocześnie ramy dla analizy porównawczej innych genomów.