Un'indagine monocellulare del piccolo epitelio intestinale | Nature

I topi
Dissociazione delle cellule e isolamento delle cripte
Cell sorting
Plate-based scRNA-seq
Droplet-based scRNA-seq
Immunofluorescenza e smFISH
Analisi delle immagini
Anticorpi e sonde
Culture organoidi intestinali
PCDNA quantitativo
Analisi computazionale
Identificazione delle traiettorie di differenziazione cellulare utilizzando le mappe di diffusione
Rimozione di cellule immunitarie contaminanti e doppietti
Analisi cluster
Estrazione di tipi di cellule rare per ulteriori analisi
Definizione delle firme di tipo cellulare
Segnare le cellule usando i set di geni firma
Stime delle frequenze di campionamento dei tipi di cellule
Dendrogramma CEE
Fattori di trascrizione cellulo-specifici, GPCRs e proteine a ripetizione ricca di leucina
Test per i cambiamenti nelle proporzioni di tipo cellulare
Arricchimento del set genico e analisi dell’ontologia genica
Data availability
Disponibilità del codice

I topi

Tutto il lavoro sui topi è stato eseguito in accordo con gli Institutional Animal Care and Use Committees (IACUC) e con le linee guida pertinenti del Broad Institute e del Massachusetts Institute of Technology, con i protocolli 0055-05-15 e 0612-058-18, rispettivamente. Per tutti gli esperimenti, i topi sono stati assegnati in modo casuale ai gruppi di trattamento dopo la corrispondenza per il sesso e l’età di 7-10-week-old femmina o maschio wild-type C57BL/6J o Lgr5-EGFP-IRES-CreERT2 (Lgr5-GFP) topi, ottenuti dal Jackson Laboratory (Bar Harbour) o Gfi1beGFP / + (Gfi1b-GFP) topi43. I topi sono stati alloggiati in condizioni di assenza di patogeni specifici presso le strutture animali del Broad Institute, Massachusetts Institute of Technology o Harvard T. H. Chan School of Public Health.

Infezione da salmonella enterica e H. polygyrus. Topi C57BL/6J (Jackson Laboratory) sono stati infettati con 200 larve al terzo stadio di H. polygyrus o 108 Salmonella enterica, mantenuti in condizioni di assenza di patogeni specifici al Massachusetts General Hospital (Charlestown), con il protocollo 2003N000158. H. polygyrus è stato propagato come precedentemente descritto44. I topi sono stati eutanasia 3 e 10 giorni dopo H. polygyrus infezione. Per Salmonella enterica, i topi sono stati infettati con un ceppo naturalmente resistente alla streptomicina SL1344 di S. Typhimurium (108 cellule) come descritto in precedenza44, e sono stati eutanasia 48 ore dopo l’infezione.

Dissociazione delle cellule e isolamento delle cripte

Isolamento delle cripte. L’intestino tenue di C57BL/6J wild-type, Lgr5-GFP o Gfi1b-GFP topi è stato isolato e sciacquato in PBS freddo. Il tessuto è stato aperto longitudinalmente e tagliato in piccoli frammenti di circa 2 mm di lunghezza. Il tessuto è stato incubato in 20 mM EDTA-PBS in ghiaccio per 90 min, agitando ogni 30 min. Il tessuto è stato poi scosso vigorosamente e il surnatante è stato raccolto come frazione 1 in una nuova provetta conica. Il tessuto è stato incubato in EDTA-PBS fresco e una nuova frazione è stata raccolta ogni 30 minuti. Le frazioni sono state raccolte fino a quando il surnatante consisteva quasi interamente di cripte. La frazione finale (arricchito per cripte) è stato lavato due volte in PBS, centrifugato a 300g per 3 min, e dissociato con TrypLE espresso (Invitrogen) per 1 min a 37 ° C. La sospensione delle singole cellule è stata poi passata attraverso un filtro da 40μm e macchiata per FACS per scRNA-seq (sotto) o utilizzato per la cultura organoide. Abbiamo confermato la robustezza di questo metodo testando ulteriori metodi di isolamento delle cellule singole – sia ‘intero’ (raschiando il rivestimento epiteliale) o ‘villo arricchito’ (frazione 1; vedi sopra) – e trovato che, a causa dell’alto tasso di mortalità (via anoikis) delle cellule differenziate post-mitotiche (il componente primario dei quali è enterociti maturi), cripta arricchito sospensione di cellule singole rappresenta fedelmente la composizione dei tipi di cellule dell’intestino tenue (dati non mostrati).

Isolamento degli epiteli associati al follicolo. Le cellule epiteliali degli epiteli associati ai follicoli sono state isolate estraendo piccole sezioni (0,2-0,5 cm) contenenti le placche di Peyer dall’intestino tenue di topi C57Bl/6J o Gfi1beGFP/+.

Cell sorting

Per gli esperimenti di scRNA-seq basati su piastra, è stata utilizzata una macchina FACS (Astrios) per ordinare una singola cellula in ogni pozzetto di una piastra PCR a 96 pozzetti contenente 5 μl di tampone TCL con 1% 2-mercaptoetanolo. Per EpCAM + isolamento, le cellule sono state colorate per 7AAD- (Life Technologies), CD45- (eBioscience), CD31- (eBioscience), TER-119- (eBioscience), EpCAM + (eBioscience); per specifiche cellule epiteliali, abbiamo anche colorato per CD24 + / – (eBioscience) e c-Kit + / – (eBioscience). Per arricchire per specifiche popolazioni di cellule epiteliali intestinali, le cellule sono state isolate da topi Lgr5-GFP, colorate con gli anticorpi di cui sopra e gated su GFP-alto (cellule staminali), GFP-basso (TAs), GFP-/CD24 + / c-Kit + / – (lineages secretorio) o GFP-/CD24-/EpCAM + (cellule epiteliali). Per un migliore recupero delle cellule di Paneth, abbiamo permesso maggiori parametri di dispersione laterale e diffusione in avanti in combinazione con CD24 + / C-Kit + per verificare il recupero delle cellule di Paneth in cellule EpCAM +. Per tuft-2 isolamento, cellule epiteliali da tre diversi topi sono stati colorati come sopra, ma utilizzando EpCAM + / CD45 + per ordinare 2.000 cellule singole. Abbiamo usato un cancello indulgente ordinamento per garantire che abbiamo ottenuto un numero sufficiente di questi rari tuft-2 cellule, che ha portato ad un tasso di contaminazione più elevato di cellule T, che abbiamo rimosso nella nostra analisi singola cella utilizzando unsupervised clustering.

Per full-length scRNA-seq ordinamento, la piastra a 96 pozzetti è stato chiuso ermeticamente con un Microseal F e centrifugato a 800g per 1 minuto. La piastra è stata immediatamente congelata su ghiaccio secco e conservato a -80 ° C fino a quando pronto per il lisato clean-up. Le cellule della popolazione di massa sono stati ordinati in una provetta Eppendorf contenente 100 microlitri soluzione di TCL con 1% 2-mercaptoetanolo e conservati a -80 ° C.

Per droplet-based scRNA-seq, le cellule sono state ordinate con gli stessi parametri come per plate-based scRNA-seq, ma sono stati ordinati in una provetta Eppendorf contenente 50 microlitri di 0,4% BSA-PBS e conservati in ghiaccio fino a procedere alla GemCode single-cell platform.

Plate-based scRNA-seq

Singole cellule. Librerie sono stati preparati utilizzando un modificato SMART-Seq2 protocollo16. In breve, RNA lisato clean-up è stato eseguito utilizzando RNAClean XP perline (Agencourt) seguita da trascrizione inversa con Maxima trascrittasi inversa (Life Technologies) e whole-transcription amplificazione (WTA) con KAPA HotStart HIFI 2 × ReadyMix (Kapa Biosystems) per 21 cicli. I prodotti WTA sono stati purificati con Ampure XP beads (Beckman Coulter), quantificati con Qubit dsDNA HS Assay Kit (ThermoFisher) e valutati con un chip DNA ad alta sensibilità (Agilent). RNA-seq librerie sono state costruite da prodotti WTA purificati utilizzando Nextera XT DNA Library Preperation Kit (Illumina). Su ogni piastra, la popolazione e no-cell controlli sono stati elaborati utilizzando lo stesso metodo come per le singole cellule. Le librerie sono state sequenziate su un Illumina NextSeq 500.

Campioni di massa. Campioni di popolazione di massa sono stati elaborati estraendo RNA con RNeasy Plus Micro Kit (Qiagen) secondo le raccomandazioni del produttore, e quindi procedere con il modificato SMART-Seq2 protocollo dopo lisato clean-up, come descritto sopra.

Droplet-based scRNA-seq

Le singole cellule sono state elaborate attraverso la piattaforma GemCode Single Cell utilizzando il GemCode Gel Bead, Chip e Kit Biblioteca (10X Genomics, Pleasanton) come da protocollo del produttore. In breve, le singole cellule sono state ordinate in 0,4% BSA-PBS. 6.000 cellule sono state aggiunte ad ogni canale con un tasso di recupero medio di 1.500 cellule. Le cellule sono state poi partizionate in Gel Beads in emulsione nello strumento GemCode, dove la lisi delle cellule e la trascrizione inversa con codice a barre di RNA si è verificato, seguita da amplificazione, taglio e 5′ adattatore e allegato indice del campione. Le librerie sono state sequenziate su un Illumina NextSeq 500.

Immunofluorescenza e smFISH

Immunofluorescenza. La colorazione dei tessuti del piccolo intestino è stata condotta come descritto in precedenza34. In breve, i tessuti sono stati fissati per 14 ore in formalina, incorporati in paraffina e tagliati in sezioni di 5μm di spessore. Sezioni sono stati deparaffinati utilizzando tecniche standard, incubati con anticorpi primari durante la notte a 4 ° C e poi con anticorpi secondari a temperatura ambiente per 30 min. I vetrini sono stati montati con Slowfade Mountant + DAPI (Life Technologies, S36964) e sigillati.

smFISH. Un kit RNAScope Multiplex Flourescent (Advanced Cell Diagnostics) è stato utilizzato secondo le raccomandazioni del produttore con le seguenti modifiche. Il tempo di ebollizione del target è stato regolato a 12 min e l’incubazione con la proteasi IV a 40 °C è stata regolata a 8 min. I vetrini sono stati montati con Slowfade Mountant+DAPI (Life Technologies, S36964) e sigillati. Questo è stato implementato eseguendo prima smFISH come descritto sopra, con le seguenti modifiche. Dopo Amp 4, le sezioni di tessuto sono state lavate in tampone di lavaggio, incubate con anticorpi primari per una notte a 4 ° C, lavate in 1 × TBST tre volte e poi incubate con anticorpi secondari per 30 min a temperatura ambiente. I vetrini sono stati montati con Slowfade Mountant + DAPI (Life Technologies, S36964) e sigillati.

Analisi delle immagini

Le immagini delle sezioni di tessuto sono state prese con un microscopio confocale Fluorview FV1200 utilizzando Kalman e l’emissione laser sequenziale per ridurre il rumore e la sovrapposizione del segnale. Le barre di scala sono state aggiunte ad ogni immagine utilizzando il software confocale FV10-ASW 3.1 Viewer. Le immagini sono state sovrapposte e visualizzate utilizzando il software Image J45.

Anticorpi e sonde

Culture organoidi intestinali

Dopo l’isolamento delle cripte, la sospensione di singole cellule è stata risospesa in Matrigel (BD Bioscience) con 1 μM Jagged-1 peptide (Ana-Spec). Circa 300 cripte incorporato in 25 microlitri di Matrigel sono stati seminati su ogni pozzo di una piastra a 24 pozzetti. Una volta solidificato, il Matrigel è stato incubato in 600 microlitri di terreno di coltura (Advanced DMEM/F12, Invitrogen) con streptomicina/penicillina e glutamatax e integrato con EGF (100 ng ml-1, Peprotech), R-spondin-1 (600 ng ml-1, R&D), noggin (100 ng ml-1, Prepotech), Y-276432 diidrocloruro monoidrato (10 μM, Tochris), N-acetil-1-cisteina (1 μM, Sigma-Aldrich), N2 (1X, Life Technologies), B27 (1X, Life Technologies) e Wnt3A (25 ng ml-1, R&D Systems). Mezzi freschi sono stati sostituiti il giorno 3, e gli organoidi sono stati fatti passare per dissociazione con TrypLE e risospesi in nuovo Matrigel il giorno 6 con un rapporto di divisione 1:3. Per esperimenti selezionati, gli organoidi sono stati ulteriormente trattati con RANKL (100 ng ml-1, Biolegends). Gli organoidi trattati sono stati dissociati e sottoposti a scRNA-seq utilizzando entrambi i metodi.

PCDNA quantitativo

CDNA di 16 cellule singole di tuft-1, tuft-2 e EpCam+ casuale dalle piastre scRNA-seq basate su full-length sono state utilizzate per la qPCR relativa. L’espressione genica è stata analizzata mediante PCR quantitativa in tempo reale su un LightCycler 480 Instrument II (Roche) utilizzando LightCycler 480 SYBR green mix (Roche) con i seguenti set di primer: HPRT1-F, GTTAAGCAGTACAGCCCCAAA; HPRT1-R, AGGGCATATCCAACAACAAACTT; UBC-F, CAGCCGTATATCTTCCCAGACT; UBC-R, CTCAGAGGGATGCCAGTAATCTA; tslp-F, TACTCTCAATCCTATCCCTGGCTG; Tlsp-R, CCATTTCCTGAGTACCGTCATTTC; Alpi-F, TCCTACACCTCCATTCTATGG, Alpi-R, CCGCCTGTGCTTGTAG; Dclk1-F, GGGTGAGAACCATCTACACCATC; Dclk1-R, CCAGCTTCTTAAAGGGCTCGAT. I primer qPCR sono stati progettati per un confine esone-esone in tutti i trascritti.

Analisi computazionale

Pre-elaborazione dei dati scRNA-seq basati su droplet. La de-multiplazione, l’allineamento al trascrittoma mm10 e l’identificazione molecolare unica (UMI) sono stati eseguiti utilizzando il toolkit Cellranger (versione 1.0.1) fornito da 10X Genomics. Per ogni cella, abbiamo quantificato il numero di geni per i quali almeno una lettura è stato mappato, e poi escluso tutte le cellule con meno di 800 geni rilevati. Valori di espressione Ei,j per il gene i nella cella j sono stati calcolati dividendo i conteggi UMI per il gene i per la somma dei conteggi UMI nella cella j, per normalizzare le differenze di copertura, e poi moltiplicare per 10.000 per creare TPM-come valori, e infine il calcolo log2 (TPM + 1). La correzione in batch è stata eseguita utilizzando ComBat46 come implementato nel pacchetto R sva47, utilizzando la modalità di regolazione parametrica predefinita. L’output era una matrice di espressione corretta, che è stato utilizzato come input per ulteriori analisi.

Selezione dei geni variabili è stata eseguita adattando un modello lineare generalizzato alla relazione tra il coefficiente quadratico di variazione e il livello di espressione media nello spazio logaritmico, e selezionando i geni che si discostano significativamente (P < 0,05) dalla curva montato48.

Pre-elaborazione dei dati SMART-Seq2 scRNA-seq. I file BAM sono stati convertiti in fusione, de-multiplexed FASTQs utilizzando la Illumina fornito Bcl2Fastq pacchetto software v2.17.1.14. Paired-end legge sono stati mappati alla UCSC mm10 trascrittoma del mouse utilizzando Bowtie49 con parametri ‘-q –phred33-quals -n 1 -e 99999999 -l 25 -I 1 -X 2000 -a -m 15 -S -p 6’, che permette l’allineamento delle sequenze con un mismatch. I livelli di espressione dei geni sono stati quantificati utilizzando i valori TPM calcolati da RSEM50 v1.2.3 in modalità paired-end. Per ogni cella, abbiamo quantificato il numero di geni per i quali almeno una lettura è stato mappato, e poi escluso tutte le cellule con meno di 3.000 geni rilevati o una mappatura trascrittoma di meno del 40%. Abbiamo poi identificato i geni altamente variabili come descritto sopra.

Riduzione della dimensionalità usando PCA e t-SNE. Abbiamo ristretto la matrice di espressione ai sottoinsiemi di geni variabili e cellule di alta qualità di cui sopra, e poi centrato e scalato i valori prima di inserirli in analisi delle componenti principali (PCA), che è stato implementato utilizzando la funzione R prcomp dal pacchetto stats per il set di dati SMART-seq2. Per il set di dati basato sulle gocce abbiamo usato un’approssimazione randomizzata alla PCA, implementata utilizzando la funzione rpca dal pacchetto rsvd R, con il parametro k impostato su 100. Questa approssimazione a basso rango è stata utilizzata perché è diversi ordini di grandezza più veloce da calcolare per matrici molto ampie. Dato che molte componenti principali spiegano molto poco della varianza, il rapporto segnale-rumore può essere migliorato sostanzialmente selezionando un sottoinsieme di n componenti principali “significative”. Dopo la PCA, le componenti principali significative sono state identificate utilizzando il test di permutazione51, implementato utilizzando la funzione permutationPA dal pacchetto jackstraw R. Questo test ha identificato 13 e 15 componenti principali significative nel 10X e SMART-Seq2 dataset di Fig. 1b e Extended Data Fig. 2a, rispettivamente. I punteggi di solo queste componenti principali significative sono stati utilizzati come input per ulteriori analisi.

Per la visualizzazione, la dimensionalità dei set di dati è stata ulteriormente ridotta utilizzando la versione approssimativa ‘Barnes-hut’ di t-SNE52,53. Questo è stato implementato utilizzando la funzione Rtsne dal pacchetto Rtsne R utilizzando 20.000 iterazioni e un’impostazione di perplessità che variava da 10 a 30 a seconda della dimensione del dataset.

Identificazione delle traiettorie di differenziazione cellulare utilizzando le mappe di diffusione

Prima di eseguire la riduzione di dimensionalità delle mappe di diffusione abbiamo selezionato i geni altamente variabili nei dati come segue. Abbiamo prima adattato un modello nullo per la variabilità dell’espressione genica cellula-cellula di base nei dati, utilizzando una relazione power-law tra il coefficiente di variazione e la media dei conteggi UMI di tutti i geni espressi, simile al lavoro precedente54. Successivamente, abbiamo calcolato per ogni gene la differenza tra il valore del suo coefficiente di variazione osservato e quello previsto dal modello nullo (CVdiff). L’istogramma di CVdiff esposto una coda ‘grasso’. Abbiamo calcolato la media μ e la deviazione standard σ di questa distribuzione, e selezionato tutti i geni per i quali CVdiff > μ + 1.67σ, ottenendo 761 geni per ulteriori analisi.

Abbiamo eseguito la riduzione della dimensionalità usando l’approccio della mappa di diffusione22. In breve, una matrice di transizione cellula-cellula è stata calcolata utilizzando un kernel gaussiano, con la larghezza del kernel regolata al vicinato locale di ogni cella55. Questa matrice è stata convertita in una matrice markoviana dopo la normalizzazione. Gli autovettori di destra vi (i = 0, 1, 2, …) di questa matrice sono stati calcolati e ordinati in ordine di autovalore decrescente λi (i = 0, 1, 2, …), dopo aver escluso il ‘top’ autovettore v0, corrispondente a λ0 = 1 (che riflette il vincolo di normalizzazione della matrice markoviana). I restanti autovettori vi (i = 1, 2, …) definiscono l’incorporazione della mappa di diffusione e sono indicati come componenti di diffusione (DCk, k = 1, 2, …). Abbiamo notato un divario spettrale tra λ4 e λ5, e quindi mantenuto DC1-DC4 sia per il set di dati iniziale (Extended Data Fig. 4) e i dati estratti da regioni intestinali distinte (Fig. 2c).

Rimozione di cellule immunitarie contaminanti e doppietti

Anche se le cellule sono state ordinate prima del sequenziamento utilizzando EpCAM, un piccolo numero di cellule immunitarie contaminanti sono stati osservati nel set di dati 10X. Queste 264 cellule sono state rimosse da un primo giro di clustering non supervisionato (clustering basato sulla densità della mappa t-SNE utilizzando dbscan56 dal pacchetto R fpc) perché formavano un cluster estremamente distinto. Per il set di dati SMART-Seq2, diverse celle erano outlier in termini di complessità della libreria, che potrebbero corrispondere a più di una cella individuale per libreria di sequenziamento (‘doublets’). Queste cellule sono state poi rimosse calcolando il primo quantile 1% della distribuzione dei geni rilevati per cella e rimuovendo tutte le cellule in questo quantile.

Analisi cluster

Per raggruppare le singole cellule dalla loro espressione, abbiamo usato un approccio di clustering non supervisionato, basato sull’algoritmo Infomap graph-clustering9, seguendo approcci per singola cella CyTOF dati57 e scRNA-seq10. In breve, abbiamo costruito un grafico k-nearest-neighbour sui dati utilizzando, per ogni coppia di cellule, la distanza euclidea tra i punteggi delle componenti principali significative per identificare k vicini più vicini. Il parametro k è stato scelto per essere coerente con la dimensione del dataset. In particolare, k è stato impostato su 200 e 80 per il dataset basato su gocce di 7.216 cellule (Fig. 1b) e per il dataset SMART-Seq2 di 1.522 cellule (Dati estesi Fig. 2a), rispettivamente. Gli organoidi trattati con RANKL contenevano 5.434 cellule e k era impostato su 200; il dataset di Salmonella e H. polygyrus conteneva 9.842 cellule e k era impostato su 500. Per le analisi dei cluster all’interno dei tipi di cellule, in particolare i sottoinsiemi di cellule enteroendocrine e tuft, abbiamo usato la distanza di correlazione di Pearson invece della distanza euclidea, e impostato k = 15, k = 30 e k = 40 per i sottotipi enteroendocrini (533 cellule), e per le 166 e 102 cellule tuft nei dataset 10X e SMART-Seq2, rispettivamente. Il grafico nearest-neighbour è stato calcolato utilizzando la funzione nng dal pacchetto R cccd. Il grafico k-nearest-neighbour è stato poi utilizzato come input per Infomap9, implementato utilizzando la funzione infomap.community dal pacchetto igraph R.

I cluster rilevati sono stati mappati ai tipi di cellule o stati intermedi utilizzando marcatori noti per i sottotipi di cellule epiteliali intestinali. (Dati estesi Fig. 1g, Dati estesi Fig. 2a). Per la sottoanalisi delle cellule enteroendocrine (EEC) (Fig. 3), qualsiasi gruppo di cluster di progenitori EEC con correlazioni medie a coppie tra i punteggi significativi delle componenti principali di r > 0.85 è stato unito, risultando in quattro cluster. Abbiamo etichettato questi quattro cluster progenitore ‘A’ sulla base di alti livelli di Ghrl, o progenitore (precoce), (medio) o (tardivo) (in questo ordine) sulla base di livelli decrescenti di staminali (Slc12a2, Ascl2, Axin2) e geni del ciclo cellulare e livelli crescenti di noti fattori regolatori EEC (Neurod1, Neurod2 e Neurog3) (Extended Data Fig. 5c, Tabella supplementare 6). Per il set di dati SMART-Seq2, due cluster che esprimono alti livelli di geni marcatori delle cellule staminali (Extended Data Fig. 2a) sono stati fusi per formare un cluster ‘stem’ e altri due cluster sono stati fusi per formare un cluster ‘TA’.

Per l’analisi dei cluster del set di dati dell’epitelio associato al follicolo di 4.700 cellule, le cellule microfold erano molto rare (0,38%) e quindi il metodo ClusterDP58 è stato utilizzato per identificarle perché ha eseguito empiricamente meglio dell’algoritmo k-nearest-neighbour graph su questo set di dati. Come per i metodi k-nearest-neighbour, ClusterDP è stato eseguito utilizzando punteggi significativi (P < 0,05) delle componenti principali (19 in questo caso) come input, ed è stato implementato utilizzando le funzioni findClusters e densityClust dal pacchetto densityClust R utilizzando i parametri rho = 1.1 e delta = 0,25.

Estrazione di tipi di cellule rare per ulteriori analisi

Il clustering iniziale del set di dati dell’intestino intero (7.216 cellule; Fig. 1b) ha mostrato un cluster di 310 cellule EEC e 166 cellule a ciuffo. Le cellule del ciuffo sono state prese ‘così come sono’ per la sottoanalisi (Fig. 4a, b), mentre le cellule EEC sono state combinate con un secondo cluster di 239 cellule EEC che sono state identificate nel dataset regionale (Fig. 2a, destra) per un totale di 549 cellule EEC. Un gruppo di 16 cellule ha co-espresso i marcatori EEC Chga e Chgb con i marcatori delle cellule di Paneth, tra cui Lyz1, Defa5 e Defa22, e sono stati quindi interpretati come doppietti e rimossi dall’analisi, lasciando 533 cellule EEC, che sono state la base per l’analisi in Fig. 3. Per confrontare i profili di espressione degli enterociti dell’intestino tenue prossimale e distale (Fig. 2b), sono stati utilizzati i 1.041 enterociti identificati da 11.665 cellule nel dataset regionale (Fig. 2a).

Definizione delle firme di tipo cellulare

Per identificare i geni massimamente specifici per i tipi di cellule, abbiamo eseguito test di espressione differenziale tra ogni coppia di cluster per tutti i possibili confronti a coppie. Poi, per un dato cluster, i geni firma putativi sono stati filtrati utilizzando il valore Q massimo FDR e classificati per il minimo log2(fold change). Il minimo fold change e il massimo valore Q rappresentano la dimensione dell’effetto più debole attraverso tutti i confronti a coppie; è quindi un criterio rigoroso. I geni della firma di tipo cellulare mostrati in Fig. 1c, Dati estesi Fig. 2b, Dati estesi Fig. 8e e Tabelle supplementari 2-4 e 8 sono stati ottenuti utilizzando un FDR massimo di 0,05 e un log2(fold change) minimo di 0,5. Nel caso di firme di tipi di cellule post-mitotiche, tutti i geni hanno superato questa soglia in entrambi i set di dati 3′ (Fig. 1c) e full-length (Extended Data Fig. 2b).

Nel caso di geni di firma per sottotipi all’interno dei tipi di cellule (Fig. 3b, Fig. 4b, Extended Data Fig. 7b), un valore P combinato (attraverso i test a coppie) per l’arricchimento è stato calcolato utilizzando il metodo di Fisher – un criterio più indulgente che semplicemente prendere il valore P massimo – e un valore massimo FDR Q di 0,01 è stato utilizzato, insieme ad un cut-off di minimo log2 (fold change) di 0,25 per i sottotipi di cellule tuft (Fig. 4b, Extended Data Fig. 7b, Tabella supplementare 7) e di 0,1 per i sottotipi EEC (Fig. 3b, Tabella supplementare 6). Tutti i geni nella firma delle cellule a ciuffo hanno superato questo cut-off in entrambi i set di dati 3′ (Fig. 4b) e full-length (Extended Data Fig. 7b), mentre le firme dei sottotipi EEC sono state definite utilizzando solo 3′. A causa del basso numero di cellule (n = 18), il valore P combinato di Fisher è stato utilizzato anche per la firma delle cellule microfold in vivo, con un cut-off FDR di 0,001 (Fig. 5d, Tabella supplementare 8). I geni marcatori sono stati classificati per minimo log2 (fold change). Test di espressione differenziale sono stati effettuati utilizzando il Mann-Whitney U test (noto anche come il Wilcoxon rank-sum test) implementato utilizzando la funzione R wilcox.test. Per gli esperimenti di infezione (Fig. 6) abbiamo usato un modello a due parti ‘ostacolo’ per controllare sia la qualità tecnica e la variazione da topo a topo. Questo è stato implementato utilizzando il pacchetto R MAST59, e valori P per l’espressione differenziale sono stati calcolati utilizzando il likelihood-ratio test. La correzione del test di ipotesi multipla è stata eseguita controllando il FDR60 usando la funzione R p.adjust.

Segnare le cellule usando i set di geni firma

Per ottenere un punteggio per un set specifico di n geni in una data cella, è stato definito un set di geni “di fondo” per controllare le differenze nella copertura di sequenziamento e la complessità della libreria tra le cellule in modo simile a rif. 12. Il set di geni di sfondo è stato selezionato per essere simile ai geni di interesse in termini di livello di espressione. In particolare, sono stati selezionati i 10n vicini più vicini nello spazio bidimensionale definito dall’espressione media e la frequenza di rilevamento in tutte le cellule. Il punteggio di firma per quella cellula è stato quindi definito come l’espressione media degli n geni di firma in quella cellula, meno l’espressione media dei 10n geni di sfondo in quella cellula.

Stime delle frequenze di campionamento dei tipi di cellule

Per ogni tipo di cellula la probabilità di osservare almeno n cellule in un campione di dimensioni k è modellata utilizzando la funzione di distribuzione cumulativa di un binomio negativo NBcdf(k, n, p), dove p è l’abbondanza relativa di questo tipo di cellule. Per m tipi di cellule con lo stesso parametro p, la probabilità complessiva di vedere ogni tipo almeno n volte è NBcdf(k; n, p)m. Tale analisi può essere eseguita con parametri specificati dall’utente a http://satijalab.org/howmanycells.

Dendrogramma CEE

I vettori di espressione media sono stati calcolati per tutti i 12 cluster di sottoinsiemi CEE, utilizzando valori log2(TPM + 1), e limitati al sottoinsieme di 1.361 geni identificati come significativamente variabili tra i sottoinsiemi CEE (P < 0,05), come descritto sopra. I vettori di espressione media tra cui questi geni sono stati gerarchicamente raggruppati utilizzando il pacchetto R pvclust (distanza Spearman, metodo di clustering ward.D2), che fornisce stime di fiducia bootstrap su ogni nodo dendrogramma come valore P empirico su 100.000 prove (dati estesi Fig. 6a).

Fattori di trascrizione cellulo-specifici, GPCRs e proteine a ripetizione ricca di leucina

Un elenco di tutti i geni identificati come fattori di trascrizione nei topi è stato ottenuto da AnimalTFDB61. Il set di GPCRs è stato ottenuto dal database UniProt (http://www.uniprot.org/uniprot/?query=family%3A%22g+protein+coupled+receptor%22+AND+organism%3A%22Mouse+%5B10090%5D%22+AND+reviewed%3Ayes&sort=score). Le annotazioni funzionali per ogni proteina (Extended Data Fig. 2d) sono state ottenute dalla British Pharmacological Society (BPS) e dall’International Union of Basic and Clinical Pharmacology (IUPHAR) (http://www.guidetopharmacology.org/GRAC/GPCRListForward?class=A). L’elenco delle proteine a ripetizione ricca di leucina è stato preso da rif. 62. Per la mappatura dai nomi dei geni umani a quelli del topo, gli ortologhi umani e del topo sono stati scaricati da Ensembl (ultima versione 86; http://www.ensembl.org/biomart/martview), e i sinonimi dei geni umani e del topo da NCBI (ftp://ftp.ncbi.nlm.nih.gov/gene/DATA/GENE_INFO/Mammalia/). Per ogni gene umano leucinoricco ripetuto, tutti i sinonimi umani sono stati mappati al gene ortologo nel topo utilizzando l’elenco degli ortologhi, e i nomi dei geni del topo sono stati mappati a quelli nei dati della singola cellula utilizzando l’elenco dei sinonimi.

Fattori di trascrizione arricchiti di tipo cellulare, GPCRs e proteine leucinoricche ripetute sono stati poi identificati intersecando l’elenco dei geni arricchiti in ogni tipo di cellula con gli elenchi dei fattori di trascrizione, GPCRs e proteine leucinoricche ripetute definiti sopra. Cell-tipo di geni arricchiti sono stati definiti utilizzando il set di dati SMART-Seq2 come quelli con un minimo log2 (fold change) di 0 e un massimo FDR di 0.5, mantenendo un massimo di 10 geni per tipo di cellula in dati estesi Fig. 2e, f (elenchi completi sono forniti nella tabella supplementare 5). Inoltre, è stato identificato un pannello più ampio di GPCR specifici per tipo cellulare (Dati estesi Fig. 2d) selezionando una soglia più indulgente. Questo è stato ottenuto confrontando ogni tipo di cellula a tutte le altre cellule, invece dei confronti a coppie descritto nella sezione precedente, e selezionando tutti i geni GPCR che erano differenzialmente espressi (FDR < 0.001).

Test per i cambiamenti nelle proporzioni di tipo cellulare

Modelliamo il numero rilevato di ogni tipo di cellula in ogni mouse analizzato come una variabile di conteggio casuale utilizzando un processo di Poisson. Il tasso di rilevazione è quindi modellato fornendo il numero totale di cellule profilate in un dato topo come variabile di offset, con la condizione di ogni topo (trattamento o controllo) fornita come covariata. Il modello è stato montato utilizzando il comando R glm dal pacchetto stats. Il valore P per la significatività dell’effetto prodotto dal trattamento è stato valutato utilizzando un test di Wald sul coefficiente di regressione.

Per la valutazione della significatività delle distribuzioni spaziali dei sottoinsiemi EEC (Fig. 3e), il confronto ha coinvolto più di due gruppi. In particolare, la nostra ipotesi nulla era che la proporzione di ciascun sottoinsieme EEC rilevato nelle tre regioni intestinali (duodeno, digiuno e ileo) fosse uguale. Per testare questa ipotesi, abbiamo utilizzato l’analisi della varianza (ANOVA) con un test χ2 sul modello di Poisson sopra descritto, implementato utilizzando la funzione anova del pacchetto stats.

Arricchimento del set genico e analisi dell’ontologia genica

L’analisi dell’ontologia genica è stata eseguita utilizzando il pacchetto R goseq63, utilizzando i geni significativamente espressi in modo differenziato (FDR < 0.05) come geni bersaglio, e tutti i geni espressi con log2(TPM + 1) > 3 in almeno dieci cellule come sfondo.

Un’indagine monocellulare del piccolo epitelio intestinale