Sample collection and whole-genome sequencing
Een totaal van 105 domestic Bactrian camels across Asia, 19 wilde Bactrische kamelen uit de Gobi-Altai regio in MG, alsmede 4 dromedarissen uit IRAN werden verzameld voor deze studie (Supplementary Fig. 1 en aanvullende tabel 1). De gedomesticeerde Bactrische kamelen werden gekozen om zoveel mogelijk belangrijke geografische regio’s te bestrijken, waaronder 55 uit Inner MG (IMG), Xinjiang (XJ), en Qinghai van China, 28 uit MG, 6 uit KAZA, 10 uit Rusland (RUS) en 6 uit IRAN. Aangezien er een verscheidenheid aan lokale rassen was ontstaan als gevolg van het wijdverbreide gebruik van gedomesticeerde Bactrische kamelen in China en MG, werden er acht verschillende representatieve rassen uit de regio’s gekozen. De andere binnenlandse Bactrische kamelen uit Centraal-Azië leefden rond de Kaspische Zee.
Na DNA-extractie werden de individuele genomen gesequenced tot een gemiddelde van 13× dekking (Supplementary Fig. 2 en Supplementary Table 2). De sequentie gelezen werden uitgelijnd met onze vorige genoom-assemblage van de Bactrische kameel29 voor variant calling. Na strenge filtering (supplementaire Fig. 3), identificeerden we in totaal 13,83 miljoen single-nucleotide polymorfismen (SNPs) en 1,41 miljoen kleine indels. Met name de overgang-transversie verhouding van ruwe SNPs (2,29) was lager dan die gerapporteerd in dromedarissen (2,31-2,34)31, maar het werd verhoogd tot 2,44 na de filtering procedures, wat suggereert een kwaliteitsverbetering van de geïdentificeerde SNPs. Functionele annotatie van de varianten gaf aan dat ongeveer 63,10% ervan intergenisch was, 33,62% intronic, en 0,94% exonisch (supplementaire tabel 3). Er werden 13,73 miljoen, 6,39 miljoen, en 10,55 miljoen varianten geïdentificeerd in respectievelijk de gedomesticeerde Bactrische kamelen, wilde Bactrische kamelen, en dromedarissen. Hoewel dromedarissen in fylogenie meer verschilden van beide Bactrische kameelsoorten, deelden de gedomesticeerde Bactrische kamelen meer varianten met de dromedarissen (66,73%) dan met de wilde Bactrische kameel (39,31%) (aanvullende Fig. 4) als gevolg van de enorme vermindering van genetische varianten waargenomen bij de nog levende wilde Bactrische kameel en van genenstroom tussen dromedarissen en gedomesticeerde Bactrische kamelen. Onder de gedomesticeerde Bactrische kamelen waren er 12,68 miljoen en 11,61 miljoen varianten geïdentificeerd in respectievelijk de Oost-Aziatische en Centraal-Aziatische populaties (aanvullende Fig. 4). Hoewel er meer gedomesticeerde kamelen uit Oost-Azië werden bemonsterd dan uit Centraal-Azië, vertoonde het aantal varianten dat eigen was aan elke populatie geen significante bias tussen de twee gebieden (P-waarde = 0,77, tweestaart t-test; Aanvullende Tabel 4).
Genetische diversiteit en differentiatie
Voor een meer gedetailleerde vergelijking van de genetische diversiteit tussen verschillende populaties, verwijderden we eerst 14 individuen die een nauwe genetische verwantschap vertoonden met de overgebleven anderen (Aanvullende Tabel 5). De paarsgewijze nucleotide diversiteit π (Fig. 1a) van dromedarissen (1,54 × 10-3) was significant hoger dan die van Bactrische kamelen uit alle geografische regio’s (0,88 × 10-3-1,11 × 10-3; Aanvullende Tabel 6), hetgeen in contrast stond met eerdere schattingen van heterozygositeit op basis van individuele genomen10. Een belangrijke reden zou de hybridisatie praktijk tussen dromedarissen en Bactrische kamelen in Centraal-Azië kunnen zijn30. Onder de Bactrische kamelen vertoonde de wilde populatie de laagste π (0.88 × 10-3) vergeleken met alle gedomesticeerde populaties (Fig. 1a en supplementaire tabel 6). Hoewel dit resultaat in veel gevallen in strijd is met het feit dat wilde dieren gewoonlijk een hogere genetische diversiteit hebben dan hun gedomesticeerde tegenhangers, zoals honden24, varkens27 en konijnen32, zou dit wel het geval zijn in het geval van bedreigde wilde dieren met een extreem kleine populatiegrootte, zoals paarden33. Bovendien vertoonden de huisdierpopulaties in Centraal-Azië over het algemeen een hogere diversiteit (1,03 × 10-3-1,11 × 10-3) dan die in Oost-Azië (0,95 × 10-3-1,02 × 10-3; Fig. 1a). Deze tendens werd ook bevestigd door de Watterson’s θ (supplementaire Fig. 5). Ook hier zou de hybridisatie met dromedarissen in Centraal-Azië een verklaring kunnen zijn voor de hogere diversiteit in deze regio.
We hebben vervolgens de paarsgewijze genetische afstand tussen de kamelenpopulaties gemeten met behulp van Weir’s Fst (Fig. 1b). Het resultaat kwam goed overeen met de bekende fylogenie, die aangaf dat de dromedarissen de hoogste Fst met de Bactrische kamelen hadden (0,54-0,64) en de wilde Bactrische kamelen de op een na hoogste Fst met de gedomesticeerde kamelen (0,27-0,31). De differentiatie onder de gedomesticeerde Bactrische kamelen was veel lager, in overeenstemming met hun recente enkelvoudige oorsprong. Interessant is dat onder de gedomesticeerde Bactrische kamelen, die uit IRAN de grootste divergentie vertoonden met alle anderen (0.05-0.06). Om de populatie-differentiatie te valideren, construeerden we een neighbor-joining (NJ) boom voor alle individuen op basis van hun paarsgewijze identiteit-voor-staat (IBS) matrix (Supplementary Fig. 6). De NJ boom ondersteunde ook een monofyletische clade van alle gedomesticeerde Bactrische kamelen, waarbinnen IRAN de diepste tak vormde.
Een potentieel probleem met de populatie-genomische schattingen was de referentie bias, waarbij het gebruik van een enkel referentiegenoom zou leiden tot een lage efficiëntie in variant-roeping voor individuen die er sterk van verschilden34. Om de bias te onderzoeken, vergeleken we het ontbrekende aantal varianten tussen de drie soorten, met de sequencing diepte als covariaat (supplementaire tabel 7). De variantieanalyse (ANOVA) toonde aan dat, hoewel de gedomesticeerde Bactrische kamelen geen significant verschil hadden met de wilde (P-waarde = 0.50), zij inderdaad een lager aantal ontbrekende varianten hadden dan de dromedaris (P-waarde = 4.38 × 10-3). Om het effect van de bias op onze schattingen te evalueren, hebben wij de genetische diversiteit en Fst herberekend met alleen synonieme SNPs (supplementaire fig. 7), aangezien coderende sequenties waarschijnlijk invariant zijn tussen de soorten. Het resultaat was dat de schattingen op basis van de synonieme SNPs voor alle soorten in goede overeenstemming waren met het volledige genoom, wat suggereert dat de referentievertekening slechts geringe effecten had op onze populatiegenomische schattingen.
Populatiestructuur met vermenging
Om de algemene populatiestructuur met potentiële vermenging te onthullen, snoeiden we de SNPs door die met hoge linkage disequilibrium en potentiële functionele effecten te verwijderen. De multidimensionele schaling (MDS) analyse gebaseerd op de gesnoeide subset gaf een vergelijkbaar resultaat als de volledige set (Fig. 2a en supplementaire Fig. 8). Zoals verwacht konden de dromedarissen en wilde Bactrische kamelen gescheiden worden door respectievelijk de eerste en tweede coördinaat. Toen het derde coördinaat in de MDS werd opgenomen, werd IRAN gescheiden van alle andere gedomesticeerde Bactrische kamelen (Fig. 2a).
Om de verschillende voorouderverhoudingen te schatten, hebben we een populatiestructuuranalyse uitgevoerd met Admixture35 door uit te gaan van K voorouderpopulaties (Fig. 2b). De cross-validatie procedure ondersteunde dat K = 3 optimaal was (Supplementary Fig. 9), en liet een duidelijke verdeling zien tussen de dromedarissen, wilde Bactrische kamelen, en gedomesticeerde Bactrische kamelen. Duidelijke introgressie van gedomesticeerde Bactrische kamelen in de Iraanse dromedarissen werd waargenomen, ten minste in één dromedaris. Dienovereenkomstig was de dromedaris afstamming overwegend in de Centraal-Aziatische Bactrische kamelenpopulaties met inbegrip van IRAN, KAZA, en RUS, met een geschat aandeel van 1-10%. Bovendien observeerden we voorouders van gedomesticeerde Bactrische kamelen in verschillende wilde individuen met een aandeel van 7-15%. Dit zou het gevolg kunnen zijn van voorouderlijke polymorfismen, maar het zou ook veroorzaakt kunnen zijn door introgressieve hybridisatie, die werd waargenomen bij mtDNAs36 en Y-chromosomen15, en waarvan werd voorgesteld dat het een bedreiging zou vormen voor het genetisch onderscheidend vermogen van de wilde soorten. Verrassend genoeg droegen de wilde kamelen bijna niets bij aan de afstamming van de gedomesticeerde populaties, zelfs niet aan de Mongoolse populaties, die nauwe leefgebieden delen met de wilde kamelen. Hoewel de meeste gedomesticeerde Bactrische kamelen geen differentiatie vertoonden toen K groeide, was IRAN de eerste populatie die zich afscheidde met een uniek voorgeslacht (K = 5; Fig. 2b).
Als een andere methode om de populatiestructuur met bijmenging te onderzoeken, leidden we de populatieboom voor de kamelen af met behulp van TreeMix37 (Fig. 2c). Wanneer geen migratiespoor werd toegevoegd, gaf de boomtopologie opnieuw aan dat IRAN de eerste populatie was die werd afgescheiden van alle inheemse Bactrische kamelen (supplementaire Fig. 10). Verhoging van de migratiesporen (m = 1-3) kon de fit van het model sterk verbeteren (Supplementaire Fig. 11), die genenstromen identificeerde van dromedarissen naar gedomesticeerde Bactrische kamelen in Centraal Azië, inclusief KAZA, RUS, en IRAN met migratiegewichten variërend van 4% tot 9% (Supplementaire Tabel 8). Vermeldenswaard was dat het migratiespoor weliswaar aan het eind van de dromedaris-tak naar IRAN wees, maar in het midden van de dromedaris-tak naar KAZA en RUS (Fig. 2c). Dit zou kunnen duiden op een spookpopulatie verwant aan de Iraanse dromedaris die heeft bijgedragen aan de afstamming van KAZA en RUS. Extra migratie sporen (m = 4) konden de fit van het model verder verbeteren, wat wees op migratie van de dromedaris naar een XJ ras (Fig. 2c). Hoewel TreeMix geen sterk signaal van migratie tussen de wilde en gedomesticeerde Bactrische kamelen detecteerde, toonden de residuen een matige vermenging tussen de wilde en Oost-Aziatische rassen (supplementaire Fig. 11). We gebruikten vervolgens de minder geparametriseerde drie- en vier-populatie (F3/F4) test38 om de statistische significantie van deze vermengingsevenementen te evalueren. Opnieuw ondersteunde de F3 test sterk de vermenging van dromedarissen en Bactrische kamelen in KAZA, RUS, en IRAN (Aanvullende Tabel 9). De gevoeligere F4 test bevestigde een significant hogere mate van vermenging tussen dromedarissen en Bactrische kamelen in Centraal-Azië vergeleken met die in Oost-Azië (aanvullende tabel 10). Onder de laatstgenoemden werd een hogere mate van vermenging met dromedarissen gedetecteerd in XJ dan in MG/IMG.
Bewijs voor Centraal-Aziatische oorsprong door introgressie te verwijderen
Oost- en Centraal-Azië waren de twee alternatieve regio’s van domesticatie voor Bactrische kamelen op basis van archeologisch bewijsmateriaal1,12,17, maar de meest waarschijnlijke regio bleef onopgelost. Hoewel wij de grootste genetische differentiatie tussen de Iraanse populatie en alle andere gedomesticeerde populaties waarnamen, zou het bestaan van vermenging tussen dromedarissen en Bactrische kamelen in Centraal-Azië de ondersteuning voor de conclusie van de oorsprong verzwakken. Om dit effect te verminderen, hebben wij geprobeerd om de introgressed segmenten van dromedarissen uit de genomen van Bactrische kamelen te verwijderen door gebruik te maken van de “BABA/ABBA” test39. Wij groepeerden de Oost- en Centraal-Aziatische populaties, en vergeleken allel-sharing tussen de twee groepen met dromedarissen (Fig. 3a). Aangezien de afstamming van Bactrische kamelen in één dromedaris, evenals de afstamming van tamme kamelen in drie wilde kamelen (Fig. 2b), verstorende factoren zouden zijn, verwijderden wij de vier individuen in de analyse. Wij gebruikten de statistiek fd, een robuuste versie van Patterson’s D, om introgressed segmenten te lokaliseren40 en pasten een strikt significantieniveau van Z-score = 2 toe met behulp van de Jackknife procedure (Supplementary Fig. 12). In een totaal van 21.153 niet-overlappende 100 kb segmenten over het genoom, waren er veel meer segmenten met vermoedelijke signalen van introgressie in de Centraal-Aziatische populaties (11.711, Z-score > 2) dan in de Oost-Aziatische populaties (3891, Z-score < -2) zoals verwacht. Wij voerden vervolgens de Admixture analyse uit op basis van de overgebleven segmenten en bevestigden dat de introgressie van dromedarissen effectief was verminderd (aanvullende Fig. 13). Herberekening van de paarsgewijze Fst na het verwijderen van introgressie gaf nog steeds aan dat IRAN het meest gedifferentieerd was (0.04-0.06) onder alle gedomesticeerde populaties (Fig. 3b). Om meer inzicht te krijgen in de fylogenie van de populatie, reconstrueerden we de NJ boom op basis van de paarsgewijze Fst en voerden we de bootstrap test uit (Fig. 3b). Deze bevestigde dat IRAN de eerste was die zich afscheidde van alle inheemse Bactrische populaties, gevolgd door KAZA en RUS. De Bayesiaanse binaire Markov Chain Monte Carlo (MCMC) analyse op basis van de fylogenie ondersteunde sterk Centraal-Azië als het voorouderlijke gebied van de gedomesticeerde Bactrische kamelen (waarschijnlijkheid = 99,78%) en een daaropvolgende verspreidingsroute van Centraal- naar Oost-Azië (aanvullend Fig. 14).
Als onafhankelijk bewijs reconstrueerden we ook de maximale waarschijnlijkheidsboom van volledige mtDNA’s op basis van de 128 monsters die we in deze studie hebben gesequeneerd, alsmede 39 extra monsters die beschikbaar zijn via Genbank (Fig. 3c en aanvullende tabel 11). Introgressie van mtDNAs kon gemakkelijk worden geïdentificeerd en van de boom uitgesloten. Zo werden bijvoorbeeld twee nieuw gesequenteerde mtDNAs uit KAZA en RUS geclusterd met dromedarissen. Binnen de clade van de gedomesticeerde Bactrische kamelen, hoewel de meeste kamelen uit verschillende geografische regio’s gemengd waren, vormden twee mtDNAs uit IRAN de meest basale takken van de gedomesticeerde populaties (Fig. 3c). De Bayesiaanse binaire MCMC analyse ondersteunde opnieuw de Centraal-Aziatische oorsprong van de gedomesticeerde Bactrische kamelen (waarschijnlijkheid = 76,43%).
Demografische geschiedenis van Bactrische kamelen
We voerden verschillende parametrische modelanalyses uit om de demografische dynamiek van de kamelen in de geschiedenis af te leiden. In overeenstemming met eerdere studie10, onthulden de lange-termijn trajecten van Bactrische kamelen gebaseerd op het paarsgewijze sequentieel Markoviaanse coalescent (PSMC) model41 een enorme afname in de effectieve populatiegrootte van de voorouderlijke kamelen eerder dan één miljoen jaar geleden (supplementaire Fig. 15). Hoewel de lange-termijn trajecten van de wilde en gedomesticeerde Bactrische kamelen over het algemeen vergelijkbaar waren, was het duidelijk dat zij al 0,4 miljoen jaar geleden van elkaar divergeerden, waardoor de eerste als directe voorouders van de laatste werden uitgesloten, zoals eerdere mtDNA analyses9,14.
Om de divergentie tijd tussen de kamelenpopulaties in meer detail te onderzoeken, gebruikten wij de gegeneraliseerde fylogenetische coalescent sampler (G-PhoCS)42. Gegeven de fylogenie van de kamelenpopulaties, kon G-PhoCS de mutatie-geschaalde populatiegrootte en de populatie-divergentie tijd schatten op basis van niet-gekoppelde neutrale loci in individuele genomen van elke populatie. Om de complexiteit van het model te verminderen, hebben we alleen dromedarissen, wilde Bactrische kamelen, en drie representatieve populaties (IRAN, KAZA, en MG) van gedomesticeerde Bactrische kamelen opgenomen (aanvullende Fig. 16 en aanvullende Tabel 12). Volgens Fig. 3b waren IRAN en KAZA de eerste twee Centraal-Aziatische populaties die zich scheidden, en de splitsing van MG zou kunnen wijzen op de dispersie van Centraal- naar Oost-Azië. De leeftijd werd gekalibreerd door uit te gaan van een Bactrische kameel en dromedaris divergentie van 5,73 miljoen jaar volgens de Timetree database43. Wanneer geen migratieband werd opgenomen, kon gemakkelijk convergentie van alle parameterschattingen worden bereikt (supplementaire Fig. 17 en supplementaire Tabel 13). Vergelijkbaar met de PSMC resultaten, was de effectieve populatiegrootte over het algemeen afgenomen van de voorouderlijke naar de moderne populaties (Fig. 4). De tijd van divergentie tussen wilde en gedomesticeerde Bactrische kamelen werd geschat op 0,43 miljoen jaar geleden (95% betrouwbaarheidsinterval : 0,13-0,73 Mya; Fig. 4), wat iets later was dan die gebaseerd op mtDNAs (0,714 of 1,1 Mya9). Onder de inheemse populaties werd IRAN ongeveer 4,45 duizend jaar geleden van de anderen gescheiden (95% CI: 0,07-17,6 Kya) en vervolgens werden de Centraal- en Oost-Aziatische populaties ongeveer 2,40 duizend jaar geleden van elkaar gescheiden (95% CI: 0,01-7,84 Kya; Fig. 4).
Om genenstroming mogelijk te maken, hebben we ook geprobeerd om migratiebanden van dromedarissen naar Bactrische kamelenpopulaties te introduceren (aanvullende Fig. 16 en aanvullende Tabel 12). De schattingen konden alleen convergeren wanneer een migratieband van Iraanse dromedarissen naar IRAN en een migratieband van een spookpopulatie naar KAZA werden geïntroduceerd (Supplementary Fig. 18 en Supplementary Table 13). Hoewel de divergentie tijd tussen wilde en gedomesticeerde Bactrische kamelen niet werd veranderd met het migratie model (0.46 Mya, 95% CI: 0.24-0.71 Mya), werd de eerste divergentie tijd van de gedomesticeerde populaties (0.19 Mya, 95% CI: 0.08-0.31 Mya) onrealistisch, omdat het ver voorbij de bekende geschiedenis van de domesticatie van vee (11.5 Kya44) lag. Bovendien werd de totale migratie slechts geschat op 0,27% en 0,16% voor de migratieband naar IRAN en KAZA, respectievelijk, veel lager dan die geschat met Admixture (1-10%). Een mogelijke reden voor de slechte schatting zou een complexere vermengingsgeschiedenis zijn dan het door G-PhoCS veronderstelde continue migratiemodel met constante percentages.