Un studiu unicelular al epiteliului intestinului subțire | Nature

Șoareci
Disocierea celulelor și izolarea criptelor
Sortarea celulelor
ScRNA-seq bazat pe plăci
Droplet-based scRNA-seq
Imunofluorescență și smFISH
Analiza imaginilor
Antibodies and probes
Culturi organoide intestinale
PCR cantitativă
Analiză computațională
Identificarea traiectoriilor de diferențiere celulară folosind hărți de difuzie
Îndepărtarea celulelor imune contaminante și a dubletelor
Analiză cluster
Extragerea tipurilor rare de celule pentru o analiză ulterioară
Definirea semnăturilor de tip celular
Scoring cells using signature gene sets
Stimări ale frecvențelor de eșantionare a tipurilor de celule
Dendrograma EEC
Factori de transcripție specifici tipului de celulă, GPCR și proteine cu repetiție bogată în leucină
Testarea modificărilor în proporțiile tipurilor de celule
Analiză de îmbogățire a setului de gene și analiză ontologică a genelor
Disponibilitatea datelor
Disponibilitatea codului

Șoareci

Toată activitatea pe șoareci a fost efectuată în conformitate cu Comitetele instituționale de îngrijire și utilizare a animalelor (IACUC) și cu liniile directoare relevante de la Broad Institute și Massachusetts Institute of Technology, cu protocoalele 0055-05-15 și, respectiv, 0612-058-18. Pentru toate experimentele, șoarecii au fost repartizați în mod aleatoriu în grupurile de tratament după potrivirea pentru sex și vârstă a șoarecilor C57BL/6J sau Lgr5-EGFP-IRES-CreERT2 (Lgr5-GFP) de tip sălbatic, în vârstă de 7-10 săptămâni, de sex feminin sau masculin, obținuți de la Jackson Laboratory (Bar Harbour) sau a șoarecilor Gfi1beGFP/+ (Gfi1b-GFP)43. Șoarecii au fost adăpostiți în condiții lipsite de agenți patogeni specifici în instalațiile pentru animale de la Broad Institute, Massachusetts Institute of Technology sau Harvard T. H. Chan School of Public Health.

Infecția cu Salmonella enterica și H. polygyrus. Șoarecii C57BL/6J (Jackson Laboratory) au fost infectați cu 200 de larve în stadiul al treilea de H. polygyrus sau cu 108 Salmonella enterica, menținute în condiții libere de agenți patogeni specifici la Massachusetts General Hospital (Charlestown), cu protocolul 2003N000158. H. polygyrus a fost înmulțită conform descrierii anterioare44. Șoarecii au fost eutanasiați la 3 și 10 zile după infectarea cu H. polygyrus. Pentru Salmonella enterica, șoarecii au fost infectați cu o tulpină SL1344 de S. Typhimurium SL1344 rezistentă în mod natural la streptomicină (108 celule), așa cum a fost descris anterior44, și au fost eutanasiați la 48 de ore după infecție.

Disocierea celulelor și izolarea criptelor

Insolarea criptelor. Intestinul subțire al șoarecilor C57BL/6J de tip sălbatic, Lgr5-GFP sau Gfi1b-GFP a fost izolat și clătit în PBS rece. Țesutul a fost deschis longitudinal și tranșat în fragmente mici, cu o lungime de aproximativ 2 mm. Țesutul a fost incubat în 20 mM EDTA-PBS la gheață timp de 90 de minute, agitându-se la fiecare 30 de minute. Țesutul a fost apoi agitat energic, iar supernatantul a fost colectat ca fracțiune 1 într-un nou tub conic. Țesutul a fost incubat în EDTA-PBS proaspăt și o nouă fracție a fost colectată la fiecare 30 de minute. Fracțiile au fost colectate până când supernatantul a fost format aproape în întregime din cripte. Fracția finală (îmbogățită pentru cripte) a fost spălată de două ori în PBS, centrifugată la 300 g timp de 3 minute și disociată cu TrypLE express (Invitrogen) timp de 1 minut la 37 °C. Suspensia unicelulară a fost apoi trecută printr-un filtru de 40 μm și colorată pentru FACS pentru scRNA-seq (mai jos) sau utilizată pentru cultura organoidală. Am confirmat robustețea acestei metode prin testarea unor metode suplimentare de izolare a celulelor unice – fie „întreagă” (răzuirea mucoasei epiteliale), fie „îmbogățită cu vilozități” (fracțiunea 1; a se vedea mai sus) – și am constatat că, din cauza ratei ridicate de mortalitate (prin anoikis) a celulelor diferențiate post-mitotice (a căror componentă primară sunt enterocitele mature), suspensia monocelulară îmbogățită cu cripte reprezintă fidel compoziția tipurilor de celule din intestinul subțire (datele nu sunt prezentate).

Izolarea epiteliilor asociate foliculilor. Celulele epiteliale din epiteliile asociate foliculilor au fost izolate prin extragerea unor secțiuni mici (0,2-0,5 cm) care conțineau plasturi Peyer din intestinul subțire al șoarecilor C57Bl/6J sau Gfi1beGFP/+.

Sortarea celulelor

Pentru experimentele de scRNA-seq de lungime completă bazate pe plăci, s-a folosit un aparat FACS (Astrios) pentru a sorta o singură celulă în fiecare puț al unei plăci PCR cu 96 de puțuri care conținea 5 μl de tampon TCL cu 1% 2-mercaptoetanol. Pentru izolarea EpCAM+, celulele au fost colorate pentru 7AAD- (Life Technologies), CD45- (eBioscience), CD31- (eBioscience), TER-119- (eBioscience), EpCAM+ (eBioscience); pentru celulele epiteliale specifice, am colorat, de asemenea, pentru CD24+/- (eBioscience) și c-Kit+/- (eBioscience). Pentru a îmbogăți populațiile specifice de celule epiteliale intestinale, au fost izolate celule de la șoareci Lgr5-GFP, colorate cu anticorpii menționați mai sus și gated pe GFP-high (celule stem), GFP-low (TA), GFP-/CD24+/c-Kit+/- (linii secretorii) sau GFP-/CD24-/EpCAM+ (celule epiteliale). Pentru o mai bună recuperare a celulelor Paneth, am permis parametrii mai mari de împrăștiere laterală și de împrăștiere înainte în combinație cu CD24+/c-Kit+ pentru a verifica recuperarea celulelor Paneth în celulele EpCAM+. Pentru izolarea tuft-2, celulele epiteliale de la trei șoareci diferiți au fost colorate ca mai sus, dar folosind EpCAM+/CD45+ pentru a sorta 2.000 de celule unice. Am folosit o poartă de sortare indulgentă pentru a ne asigura că am obținut un număr suficient de aceste celule tuft-2 rare, ceea ce a dus la o rată mai mare de contaminare a celulelor T, pe care le-am eliminat în analiza noastră cu celule unice folosind gruparea nesupravegheată.

Pentru sortarea scRNA-seq de lungime completă, placa cu 96 de godeuri a fost închisă ermetic cu un Microseal F și centrifugată la 800g timp de 1 min. Placa a fost imediat congelată pe gheață uscată și păstrată la -80 °C până când a fost pregătită pentru curățarea lizatului. Celulele din populația masivă au fost sortate într-un tub Eppendorf care conținea 100 μl de soluție de TCL cu 1 % 2-mercaptoetanol și au fost păstrate la -80 °C.

Pentru scRNA-seq bazat pe picături, celulele au fost sortate cu aceiași parametri ca și pentru scRNA-seq bazat pe plăci, dar au fost sortate într-un tub Eppendorf care conține 50 μl de BSA-PBS 0,4% și depozitate la gheață până când se trece la platforma GemCode single-cell.

ScRNA-seq bazat pe plăci

Celule singulare. Bibliotecile au fost pregătite utilizând un protocol SMART-Seq2 modificat16. Pe scurt, s-a efectuat curățarea lizatului de ARN cu ajutorul perlelor RNAClean XP (Agencourt), urmată de transcrierea inversă cu transcriptaza inversă Maxima (Life Technologies) și amplificarea prin transcriere integrală (WTA) cu KAPA HotStart HIFI 2 × ReadyMix (Kapa Biosystems) timp de 21 de cicluri. Produsele WTA au fost purificate cu margele Ampure XP (Beckman Coulter), cuantificate cu Qubit dsDNA HS Assay Kit (ThermoFisher) și evaluate cu un cip ADN de înaltă sensibilitate (Agilent). Bibliotecile RNA-seq au fost construite din produsele WTA purificate folosind Nextera XT DNA Library Preperation Kit (Illumina). Pe fiecare placă, populația și controalele fără celule au fost procesate folosind aceeași metodă ca și în cazul celulelor individuale. Bibliotecile au fost secvențiate pe un Illumina NextSeq 500.

Eșantioane în vrac. Probele de populație în vrac au fost procesate prin extragerea ARN cu RNeasy Plus Micro Kit (Qiagen) conform recomandărilor producătorului și apoi s-a procedat cu protocolul SMART-Seq2 modificat după curățarea lizatului, așa cum s-a descris mai sus.

Droplet-based scRNA-seq

Celele unice au fost procesate prin intermediul platformei GemCode Single Cell Platform folosind GemCode Gel Bead, Chip and Library Kits (10X Genomics, Pleasanton) conform protocolului producătorului. Pe scurt, celulele unice au fost sortate în 0,4% BSA-PBS. S-au adăugat 6.000 de celule în fiecare canal, cu o rată medie de recuperare de 1.500 de celule. Celulele au fost apoi partiționate în perle de gel în emulsie în instrumentul GemCode, unde a avut loc liza celulară și transcrierea inversă cu cod de bare a ARN-ului, urmată de amplificare, forfecare și atașarea adaptorului 5′ și a indexului de probă. Bibliotecile au fost secvențiate pe un Illumina NextSeq 500.

Imunofluorescență și smFISH

Imunofluorescență. Colorarea țesuturilor intestinului subțire a fost efectuată așa cum a fost descrisă anterior34. Pe scurt, țesuturile au fost fixate timp de 14 h în formol, încorporate în parafină și tăiate în secțiuni de 5 μm grosime. Secțiunile au fost deparafinate folosind tehnici standard, incubate cu anticorpi primari peste noapte la 4 °C și apoi cu anticorpi secundari la temperatura camerei timp de 30 min. Lamele au fost montate cu Slowfade Mountant + DAPI (Life Technologies, S36964) și sigilate.

smFISH. S-a utilizat un kit RNAScope Multiplex Flourescent Kit (Advanced Cell Diagnostics) conform recomandărilor producătorului, cu următoarele modificări. Timpul de fierbere pentru recuperarea țintei a fost ajustat la 12 min, iar incubarea cu protează IV la 40 °C a fost ajustată la 8 min. Lamele au fost montate cu Slowfade Mountant+DAPI (Life Technologies, S36964) și sigilate.

Imunofluorescență combinată și smFISH. Acest lucru a fost implementat prin efectuarea mai întâi a smFISH așa cum este descris mai sus, cu următoarele modificări. După Amp 4, secțiunile de țesut au fost spălate în tampon de spălare, incubate cu anticorpi primari peste noapte la 4 °C, spălate în 1× TBST de trei ori și apoi incubate cu anticorpi secundari timp de 30 de minute la temperatura camerei. Lamele au fost montate cu Slowfade Mountant + DAPI (Life Technologies, S36964) și sigilate.

Analiza imaginilor

Imaginile secțiunilor de țesut au fost realizate cu un microscop confocal Fluorview FV1200 folosind Kalman și emisie laser secvențială pentru a reduce zgomotul și suprapunerea semnalului. Barele de scară au fost adăugate la fiecare imagine cu ajutorul software-ului confocal FV10-ASW 3.1 Viewer. Imaginile au fost suprapuse și vizualizate cu ajutorul software-ului Image J45.

Antibodies and probes

Culturi organoide intestinale

După izolarea criptă, suspensia unicelulară a fost resuspendată în Matrigel (BD Bioscience) cu 1 μM peptidă Jagged-1 (Ana-Spec). Aproximativ 300 de cripte încorporate în 25 μl de Matrigel au fost însămânțate în fiecare puț al unei plăci cu 24 de puțuri. Odată solidificat, Matrigel-ul a fost incubat în 600 μl de mediu de cultură (Advanced DMEM/F12, Invitrogen) cu streptomicină/penicilină și glutamatax și suplimentat cu EGF (100 ng ml-1, Peprotech), R-spondin-1 (600 ng ml-1, R&D), noggin (100 ng ml-1, Prepotech), Y-276432 dihidroclorură monohidrat (10 μM, Tochris), N-acetil-1-cisteină (1 μM, Sigma-Aldrich), N2 (1X, Life Technologies), B27 (1X, Life Technologies) și Wnt3A (25 ng ml-1, R&D Systems). Mediul proaspăt a fost înlocuit în ziua 3, iar organoizii au fost trecuți prin disociere cu TrypLE și resuspendați în Matrigel nou în ziua 6 cu un raport de divizare de 1:3. Pentru experimentele selectate, organoidele au fost tratate suplimentar cu RANKL (100 ng ml-1, Biolegends). Organoizii tratați au fost disociați și supuși scRNA-seq folosind ambele metode.

PCR cantitativă

ADNc din 16 celule unice de tuft-1, tuft-2 și EpCam+ aleatorii din plăcile scRNA-seq bazate pe lungimea completă au fost utilizate pentru qPCR relativă. Expresia genelor a fost analizată prin PCR cantitativă în timp real pe un instrument LightCycler 480 Instrument II (Roche) folosind LightCycler 480 SYBR green mix (Roche) cu următoarele seturi de primer: HPRT1-F, GTTAAGCAGTACAGCAGCCCCAAA; HPRT1-R, AGGGCATATATCCAACAACAAACTT; UBC-F, CAGCCGTATATCTTCCCAGACT; UBC-R, CTCAGAGGGATGCCAGTAGTAATCTA; tslp-F, TACTCTCAATCCTATCCCCCTGGCTGGCTG; Tlsp-R, CCATTTCCTCTGAGTACCTACCGTCATTTCATTTC; Alpi-F, TCCTACACCTCTCCATTCTCTCTATGG, Alpi-R, CCGCCTGCTGCTGCTTGTAG; Dclk1-F, GGGTGAGAACCATCATCTACACCATCATC; Dclk1-R, CCAGCTCTTCTTAAAGGGCTCCTGAT. Amorsatorii qPCR au fost proiectați pentru o limită exon-exon în toate transcripțiile.

Analiză computațională

Prelucrarea prealabilă a datelor scRNA-seq bazate pe picături. De-multiplexarea, alinierea la transcriptomul mm10 și colapsarea identificatorului molecular unic (UMI) au fost efectuate cu ajutorul setului de instrumente Cellranger (versiunea 1.0.1) furnizat de 10X Genomics. Pentru fiecare celulă, am cuantificat numărul de gene pentru care a fost cartografiată cel puțin o citire, iar apoi am exclus toate celulele cu mai puțin de 800 de gene detectate. Valorile de expresie Ei,j pentru gena i în celula j au fost calculate prin împărțirea numărului de UMI pentru gena i la suma numărului de UMI din celula j, pentru a normaliza diferențele de acoperire, apoi înmulțind cu 10.000 pentru a crea valori asemănătoare cu TPM și, în final, calculând log2(TPM + 1). Corecția pe loturi a fost efectuată cu ajutorul ComBat46 , așa cum este implementat în pachetul R sva47 , utilizând modul de ajustare parametrică implicit. Rezultatul a fost o matrice de expresie corectată, care a fost utilizată ca intrare pentru analiza ulterioară.

Selecția genelor variabile a fost realizată prin ajustarea unui model liniar generalizat la relația dintre coeficientul de variație la pătrat și nivelul mediu de expresie în spațiu logaritmic și prin selectarea genelor care s-au abătut semnificativ (P < 0,05) de la curba ajustată48.

Preprocesarea datelor SMART-Seq2 scRNA-seq. Fișierele BAM au fost convertite în FASTQ-uri fuzionate și demultiplexate cu ajutorul pachetului software Bcl2Fastq v2.17.1.14 furnizat de Illumina. Lecturile de tip pair-end au fost cartografiate la transcriptomul de șoarece UCSC mm10 utilizând Bowtie49 cu parametrii „-q –phred33-quals -n 1 -e 99999999 -l 25 -I 1 -X 2000 -a -m 15 -S -p 6”, care permite alinierea secvențelor cu o neconcordanță. Nivelurile de expresie ale genelor au fost cuantificate cu ajutorul valorilor TPM calculate de RSEM50 v1.2.3 în modul paired-end. Pentru fiecare celulă, am cuantificat numărul de gene pentru care a fost cartografiată cel puțin o citire și apoi am exclus toate celulele cu mai puțin de 3 000 de gene detectate sau cu o cartografiere a transcriptomului mai mică de 40 %. Am identificat apoi genele foarte variabile, așa cum am descris mai sus.

Reducerea dimensionalității cu ajutorul PCA și t-SNE. Am restrâns matricea de expresie la subseturile de gene variabile și la celulele de înaltă calitate menționate mai sus, apoi am centrat și am scalat valorile înainte de a le introduce în analiza componentelor principale (PCA), care a fost implementată utilizând funcția R prcomp din pachetul stats pentru setul de date SMART-seq2. Pentru setul de date bazat pe picături am utilizat o aproximare aleatorie a PCA, implementată cu ajutorul funcției rpca din pachetul R rsvd, cu parametrul k setat la 100. Această aproximare cu rang scăzut a fost utilizată deoarece este cu câteva ordine de mărime mai rapidă de calculat pentru matrici foarte largi. Având în vedere că multe componente principale explică foarte puțin din varianță, raportul semnal-zgomot poate fi îmbunătățit substanțial prin selectarea unui subset de n componente principale „semnificative”. După PCA, componentele principale semnificative au fost identificate cu ajutorul testului de permutare51 , implementat cu ajutorul funcției permutationPA din pachetul jackstraw R. Acest test a identificat 13 și 15 componente principale semnificative în seturile de date 10X și SMART-Seq2 din Fig. 1b și, respectiv, Fig. 2a cu date extinse. Scorurile doar din aceste componente principale semnificative au fost utilizate ca intrare pentru analiza ulterioară.

Pentru vizualizare, dimensionalitatea seturilor de date a fost redusă în continuare utilizând versiunea aproximativă „Barnes-hut” a t-SNE52,53. Aceasta a fost implementată cu ajutorul funcției Rtsne din pachetul Rtsne R, folosind 20 000 de iterații și o setare a perplexității care a variat de la 10 la 30 în funcție de dimensiunea setului de date.

Identificarea traiectoriilor de diferențiere celulară folosind hărți de difuzie

Înainte de a rula reducerea dimensionalității hărții de difuzie am selectat genele foarte variabile din date, după cum urmează. Mai întâi am ajustat un model nul pentru variabilitatea de bază a expresiei genice de la celulă la celulă în date, utilizând o relație de tip lege de putere între coeficientul de variație și media numerelor UMI ale tuturor genelor exprimate, similar cu lucrările anterioare54. Apoi, am calculat pentru fiecare genă diferența dintre valoarea coeficientului său de variație observat și cea așteptată de modelul nul (CVdiff). Histograma CVdiff a prezentat o coadă „grasă”. Am calculat media μ și abaterea standard σ a acestei distribuții și am selectat toate genele pentru care CVdiff > μ + 1,67σ, obținând 761 de gene pentru analiza ulterioară.

Am efectuat o reducere a dimensionalității utilizând abordarea de tip hartă de difuzie22. Pe scurt, a fost calculată o matrice de tranziție celulă-celulă cu ajutorul unui nucleu gaussian, cu lățimea nucleului ajustată la vecinătatea locală a fiecărei celule55. Această matrice a fost convertită într-o matrice markoviană după normalizare. Vectorii proprii drepți vi (i = 0, 1, 2, …) ai acestei matrice au fost calculați și ordonați în ordinea descrescătoare a valorii proprii λi (i = 0, 1, 2, …), după excluderea vectorului propriu „de vârf” v0, care corespunde la λ0 = 1 (care reflectă constrângerea de normalizare a matricei markoviane). Restul vectorilor proprii vi (i = 1, 2, …) definesc încorporarea hărții de difuzie și sunt denumite componente de difuzie (DCk, k = 1, 2, …). Am observat un decalaj spectral între λ4 și λ5 și, prin urmare, am păstrat DC1-DC4 atât pentru setul de date inițial (Extended Data Fig. 4), cât și pentru datele extrase din regiuni intestinale distincte (Fig. 2c).

Îndepărtarea celulelor imune contaminante și a dubletelor

Deși celulele au fost sortate înainte de secvențiere cu ajutorul EpCAM, un număr mic de celule imune contaminante au fost observate în setul de date 10X. Aceste 264 de celule au fost eliminate printr-o rundă inițială de grupare nesupravegheată (grupare bazată pe densitate a hărții t-SNE utilizând dbscan56 din pachetul R fpc), deoarece au format un grup extrem de distinct. Pentru setul de date SMART-Seq2, mai multe celule au fost aberante în ceea ce privește complexitatea bibliotecii, care ar putea corespunde, eventual, la mai mult de o celulă individuală per bibliotecă de secvențiere („doublets”). Aceste celule au fost apoi eliminate prin calcularea cuantilei de top 1 % din distribuția genelor detectate per celulă și prin eliminarea oricăror celule din această cuantilă.

Analiză cluster

Pentru a grupa celulele individuale în funcție de expresia lor, am utilizat o abordare de grupare nesupervizată, bazată pe algoritmul de grupare grafică Infomap9, urmând abordări pentru datele CyTOF pentru celule unice57 și scRNA-seq10. Pe scurt, am construit un graf cu k vecini apropiați pe date folosind, pentru fiecare pereche de celule, distanța euclidiană dintre scorurile componentelor principale semnificative pentru a identifica k vecini apropiați. Parametrul k a fost ales pentru a fi în concordanță cu dimensiunea setului de date. În mod specific, k a fost setat la 200 și 80 pentru setul de date bazat pe picături de 7 216 celule (Fig. 1b) și, respectiv, pentru setul de date SMART-Seq2 de 1 522 de celule (Extended Data Fig. 2a). Organoizii tratați cu RANKL conțineau 5 434 de celule și k a fost setat la 200; setul de date cu Salmonella și H. polygyrus conținea 9 842 de celule și k a fost setat la 500. Pentru analizele de clustere în cadrul tipurilor de celule, în special pentru subgrupurile de celule enteroendocrine și de tufișuri, am utilizat distanța de corelație Pearson în loc de distanța euclidiană și am stabilit k = 15, k = 30 și k = 40 pentru subtipurile enteroendocrine (533 de celule) și pentru cele 166 și 102 celule de tufișuri din seturile de date 10X și, respectiv, SMART-Seq2. Graficul celui mai apropiat vecin a fost calculat cu ajutorul funcției nng din pachetul R cccd. Graficul k-nearest-neighbour a fost apoi utilizat ca intrare în Infomap9, implementat cu ajutorul funcției infomap.community din pachetul R igraph.

Clusterele detectate au fost cartografiate la tipuri de celule sau la stări intermediare folosind markeri cunoscuți pentru subtipurile de celule epiteliale intestinale. (Date extinse Fig. 1g, Date extinse Fig. 2a). Pentru subanaliza celulelor enteroendocrine (EEC) (Fig. 3), orice grup de clustere de progenitori EEC cu corelații medii pe perechi între scorurile semnificative ale componentelor principale de r > 0,85 a fost fuzionat, rezultând patru clustere. Am etichetat aceste patru clustere drept progenitor „A” pe baza nivelurilor ridicate de Ghrl, sau progenitor (timpuriu), (mijlociu) sau (târziu) (în această ordine) pe baza nivelurilor descrescătoare ale genelor stem (Slc12a2, Ascl2, Axin2) și ale ciclului celular și a nivelurilor crescânde ale factorilor de reglare EEC cunoscuți (Neurod1, Neurod2 și Neurog3) (Date extinse Fig. 5c, Tabelul suplimentar 6). Pentru setul de date SMART-Seq2, două clustere care exprimă niveluri ridicate de gene marker de celule stem (Extended Data Fig. 2a) au fost unite pentru a forma un cluster „stem” și alte două clustere au fost unite pentru a forma un cluster „TA”.

Pentru analiza clusterului din setul de date privind epiteliul asociat foliculului, format din 4 700 de celule, celulele microfoldate au fost foarte rare (0,38 %) și, prin urmare, metoda ClusterDP58 a fost utilizată pentru a le identifica, deoarece a avut performanțe empirice mai bune decât algoritmul grafului k-nearest-neighbour pe acest set de date. Ca și în cazul metodelor k-nearest-neighbour, ClusterDP a fost rulat folosind ca intrare scoruri semnificative (P < 0,05) ale componentelor principale (19 în acest caz) și a fost implementat folosind funcțiile findClusters și densityClust din pachetul R densityClust folosind parametrii rho = 1.1 și delta = 0,25.

Extragerea tipurilor rare de celule pentru o analiză ulterioară

Gruparea inițială a setului de date pentru întregul intestin (7 216 celule; Fig. 1b) a arătat un grup de 310 celule EEC și 166 de celule tuft. Celulele tuft au fost luate „ca atare” pentru subanaliză (Fig. 4a, b), în timp ce celulele EEC au fost combinate cu un al doilea cluster de 239 de celule EEC care au fost identificate în setul de date regionale (Fig. 2a, dreapta) pentru un total de 549 de celule EEC. Un grup de 16 celule a coexprimat markerii EEC Chga și Chgb cu markeri ai celulelor Paneth, inclusiv Lyz1, Defa5 și Defa22, și, prin urmare, au fost interpretate ca dublete și eliminate din analiză, lăsând 533 de celule EEC, care au stat la baza analizei din Fig. 3. Pentru a compara profilurile de expresie ale enterocitelor din intestinul subțire proximal și distal (Fig. 2b), au fost utilizate cele 1 041 de enterocite identificate din 11 665 de celule din setul de date regionale (Fig. 2a).

Definirea semnăturilor de tip celular

Pentru a identifica genele maxim specifice pentru tipurile de celule, am efectuat teste de expresie diferențială între fiecare pereche de clustere pentru toate comparațiile posibile pe perechi. Apoi, pentru un anumit cluster, genele de semnătură putativă au fost filtrate folosind valoarea maximă FDR Q și clasificate în funcție de log2(fold change) minim. Schimbarea fold minimă și valoarea Q maximă reprezintă cea mai slabă dimensiune a efectului în toate comparațiile pe perechi; prin urmare, este un criteriu strict. Genele semnătură de tip celular prezentate în Fig. 1c, Date extinse Fig. 2b, Date extinse Fig. 8e și Tabelele suplimentare 2-4 și 8 au fost obținute utilizând un FDR maxim de 0,05 și un log2(fold change) minim de 0,5. În cazul semnăturilor pentru tipurile de celule post-mitotice, toate genele au depășit acest prag atât în seturile de date 3′ (Fig. 1c), cât și în seturile de date complete (Extended Data Fig. 2b).

În cazul genelor semnătură pentru subtipurile din cadrul tipurilor de celule (Fig. 3b, Fig. 4b, Extended Data Fig. 7b), a fost calculată o valoare P combinată (pentru toate testele pe perechi) pentru îmbogățire folosind metoda Fisher – un criteriu mai permisiv decât simpla luare a valorii P maxime – și a fost utilizată o valoare maximă FDR Q de 0,01, împreună cu un cut-off de minim log2(fold change) de 0,25 pentru subtipurile de celule tuft (Fig. 4b, Extended Data Fig. 7b, Supplementary Table 7) și de 0,1 pentru subtipurile EEC (Fig. 3b, Supplementary Table 6). Toate genele din semnătura celulei tuft au depășit acest cut-off atât în seturile de date 3′ (Fig. 4b), cât și în seturile de date complete (Extended Data Fig. 7b), în timp ce semnăturile subtipurilor EEC au fost definite utilizând doar 3′. Din cauza numărului redus de celule (n = 18), valoarea P combinată a lui Fisher a fost, de asemenea, utilizată pentru semnătura celulelor de microfold in vivo, cu un cut-off FDR de 0,001 (Fig. 5d, Tabelul suplimentar 8). Genele marker au fost clasificate în funcție de minimul log2(fold change). Testele de expresie diferențială au fost efectuate cu ajutorul testului Mann-Whitney U (cunoscut și ca testul Wilcoxon rank-sum) implementat cu ajutorul funcției R wilcox.test. Pentru experimentele de infecție (Fig. 6), am utilizat un model „hurdle” în două părți pentru a controla atât calitatea tehnică, cât și variația de la un șoarece la altul. Acesta a fost implementat cu ajutorul pachetului R MAST59, iar valorile P pentru expresia diferențială au fost calculate cu ajutorul testului likelihood-ratio. Corecția testului de testare a ipotezelor multiple a fost efectuată prin controlul FDR60 folosind funcția R p.adjust.

Scoring cells using signature gene sets

Pentru a obține un scor pentru un set specific de n gene într-o anumită celulă, a fost definit un set de gene „de fond” pentru a controla diferențele în ceea ce privește acoperirea secvențierii și complexitatea bibliotecii între celule, într-un mod similar cu ref. 12. Setul de gene de fond a fost selectat pentru a fi similar cu genele de interes în ceea ce privește nivelul de expresie. Mai exact, au fost selectați cei mai apropiați 10n vecini în spațiul bidimensional definit prin expresia medie și frecvența de detectare în toate celulele. Scorul de semnătură pentru acea celulă a fost apoi definit ca expresia medie a celor n gene de semnătură în acea celulă, minus expresia medie a celor 10n gene de fond în acea celulă.

Stimări ale frecvențelor de eșantionare a tipurilor de celule

Pentru fiecare tip de celulă, probabilitatea de a observa cel puțin n celule într-un eșantion de dimensiune k este modelată folosind funcția de distribuție cumulativă a unui binom negativ NBcdf(k, n, p), unde p este abundența relativă a acestui tip de celulă. Pentru m tipuri de celule cu același parametru p, probabilitatea globală de a observa fiecare tip de cel puțin n ori este NBcdf(k; n, p)m. O astfel de analiză poate fi efectuată cu parametrii specificați de utilizator la http://satijalab.org/howmanycells.

Dendrograma EEC

Vectori de expresie medie au fost calculați pentru toate cele 12 clustere de subseturi EEC, folosind valorile log2(TPM + 1) și restrânși la subsetul de 1.361 de gene identificate ca fiind semnificativ variabile între subseturile EEC (P < 0,05), așa cum a fost descris mai sus. Vectorii de expresie medie care includ aceste gene au fost grupați ierarhic folosind pachetul R pvclust (distanța Spearman, metoda de grupare ward.D2), care oferă estimări de încredere bootstrap pe fiecare nod de dendrogramă ca valoare P empirică pe 100.000 de încercări (Extended Data Fig. 6a).

Factori de transcripție specifici tipului de celulă, GPCR și proteine cu repetiție bogată în leucină

O listă a tuturor genelor identificate ca acționând ca factori de transcripție la șoareci a fost obținută din AnimalTFDB61. Setul de GPCR-uri a fost obținut din baza de date UniProt (http://www.uniprot.org/uniprot/?query=family%3A%22g+protein+coupled+receptor%22+AND+organism%3A%22Mouse+%5B10090%5D%22+AND+reviewed%3Ayes&sort=score). Adnotările funcționale pentru fiecare proteină (Extended Data Fig. 2d) au fost obținute de la British Pharmacological Society (BPS) și de la International Union of Basic and Clinical Pharmacology (IUPHAR) (http://www.guidetopharmacology.org/GRAC/GPCRListForward?class=A). Lista proteinelor cu repetiții bogate în leucină a fost preluată din ref. 62. Pentru cartografierea de la nume de gene umane la nume de gene de șoarece, ortologii umani și de șoarece au fost descărcați din Ensembl (ultima versiune 86; http://www.ensembl.org/biomart/martview), iar sinonimele genelor umane și de șoarece din NCBI (ftp://ftp.ncbi.nlm.nih.gov/gene/DATA/GENE_INFO/Mammalia/). Pentru fiecare genă umană cu repetiție bogată în leucină, toate sinonimele umane au fost puse în corespondență cu gena ortologă din șoarece folosind lista de ortologi, iar numele genelor de șoarece au fost puse în corespondență cu cele din datele cu o singură celulă folosind lista de sinonime.

Factori de transcripție, GPCR și proteine cu repetiție bogată în leucină îmbogățite în funcție de tipul celular au fost apoi identificate prin intersectarea listei de gene îmbogățite în fiecare tip celular cu listele de factori de transcripție, GPCR și proteine cu repetiție bogată în leucină definite mai sus. Genele îmbogățite în funcție de tipul celular au fost definite folosind setul de date SMART-Seq2 ca fiind cele cu un log2(fold change) minim de 0 și un FDR maxim de 0,5, păstrând un număr maxim de 10 gene per tip celular în Extended Data Fig. 2e, f (listele complete sunt furnizate în tabelul suplimentar 5). În plus, a fost identificat un panou mai extins de GPCR-uri specifice tipului celular (Extended Data Fig. 2d) prin selectarea unui prag mai permisiv. Acest lucru a fost realizat prin compararea fiecărui tip de celule cu toate celelalte celule, în loc de comparațiile pe perechi descrise în secțiunea anterioară, și prin selectarea tuturor genelor GPCR care au fost exprimate diferențiat (FDR < 0,001).

Testarea modificărilor în proporțiile tipurilor de celule

Am modelat numărul detectat al fiecărui tip de celule în fiecare șoarece analizat ca o variabilă de numărare aleatorie folosind un proces Poisson. Rata de detecție este apoi modelată prin furnizarea numărului total de celule profilate la un anumit șoarece ca o variabilă de compensare, cu condiția fiecărui șoarece (tratament sau control) furnizată ca o covariantă. Modelul a fost ajustat cu ajutorul comenzii R glm din pachetul stats. Valoarea P pentru semnificația efectului produs de tratament a fost evaluată cu ajutorul unui test Wald asupra coeficientului de regresie.

Pentru evaluarea semnificației distribuțiilor spațiale ale subseturilor EEC (Fig. 3e), comparația a implicat mai mult de două grupuri. În special, ipoteza noastră nulă a fost că proporția fiecărui subset EEC detectat în cele trei regiuni intestinale (duoden, jejun și ileon) a fost egală. Pentru a testa această ipoteză, am utilizat analiza varianței (ANOVA) cu un test χ2 pe ajustarea modelului Poisson descris mai sus, implementat cu ajutorul funcției anova din pachetul stats.

Analiză de îmbogățire a setului de gene și analiză ontologică a genelor

Analiza ontologică a genelor a fost realizată cu ajutorul pachetului goseq R63, utilizând genele exprimate în mod semnificativ diferențiat (FDR < 0.05) ca gene țintă, și toate genele exprimate cu log2(TPM + 1) > 3 în cel puțin zece celule ca fundal.