A single-cell survey of the small intestinal epithelium

Mice

Al het muizenwerk werd uitgevoerd in overeenstemming met de Institutional Animal Care and Use Committees (IACUC) en met de relevante richtlijnen aan het Broad Institute en het Massachusetts Institute of Technology, met protocollen 0055-05-15 en 0612-058-18, respectievelijk. Voor alle experimenten werden muizen willekeurig toegewezen aan behandelingsgroepen na matching voor het geslacht en de leeftijd van 7-10 weken oude vrouwelijke of mannelijke wild-type C57BL/6J of Lgr5-EGFP-IRES-CreERT2 (Lgr5-GFP) muizen, verkregen uit het Jackson Laboratory (Bar Harbour) of Gfi1beGFP/ + (Gfi1b-GFP) muizen43. Muizen werden gehuisvest onder specifieke-pathogeen-vrije omstandigheden op de dierlijke faciliteiten aan het Broad Institute, Massachusetts Institute of Technology of Harvard T. H. Chan School of Public Health.

Salmonella enterica en H. polygyrus infectie. C57BL/6J muizen (Jackson Laboratory) werden geïnfecteerd met 200 larven van het derde stadium van H. polygyrus of 108 Salmonella enterica, die werden gehouden onder specifiek-pathogeenvrije omstandigheden in het Massachusetts General Hospital (Charlestown), met protocol 2003N000158. H. polygyrus werd vermeerderd zoals eerder beschreven44. Muizen werden geëuthanaseerd 3 en 10 dagen na H. polygyrus infectie. Voor Salmonella enterica, muizen werden geïnfecteerd met een natuurlijk streptomycine-resistente SL1344 stam van S. Typhimurium (108 cellen) zoals eerder beschreven44, en werden geëuthanaseerd 48 uur na infectie.

Cell dissociatie en crypt isolatie

Crypt isolatie. De dunne darm van C57BL / 6J wild-type, Lgr5-GFP of Gfi1b-GFP muizen werd geïsoleerd en gespoeld in koude PBS. Het weefsel werd geopend in de lengterichting en gesneden in kleine fragmenten ongeveer 2 mm in lengte. Het weefsel werd geïncubeerd in 20 mM EDTA-PBS op ijs gedurende 90 min, schudden om de 30 min. Het weefsel werd vervolgens krachtig geschud en het supernatant werd verzameld als fractie 1 in een nieuwe conische buis. Het weefsel werd geïncubeerd in vers EDTA-PBS en om de 30 min. werd een nieuwe fractie verzameld. Fracties werden verzameld totdat het supernatant bestond bijna volledig uit crypten. De laatste fractie (verrijkt voor crypten) werd tweemaal gewassen in PBS, gecentrifugeerd bij 300g gedurende 3 min, en gedissocieerd met TrypLE express (Invitrogen) gedurende 1 min bij 37 ° C. De single-cel suspensie werd vervolgens door een 40-urn filter en gekleurd voor FACS voor scRNA-seq (hieronder) of gebruikt voor organoïde cultuur. We bevestigden de robuustheid van deze methode door het testen van extra single-cel isolatie methoden-hetzij ‘geheel’ (het schrapen van de epitheliale bekleding) of ‘villus-verrijkt’ (fractie 1, zie hierboven) – en vond dat, vanwege de hoge sterfte (via anoikis) van post-mitotische gedifferentieerde cellen (waarvan de primaire component is volwassen enterocyten), crypt-verrijkte single-cel suspensie getrouw de samenstelling van de soorten van de dunne darm cel (data niet weergegeven) vertegenwoordigt.

Follicle-geassocieerde epithelia isolatie. Epitheelcellen van de follikel-geassocieerde epithelia werden geïsoleerd door het extraheren van kleine coupes (0,2-0,5 cm) met Peyer’s patches van de dunne darm van C57Bl/6J of Gfi1beGFP / + muizen.

Cell sorting

Voor plaat-gebaseerde full-length scRNA-seq experimenten, werd een FACS-machine (Astrios) gebruikt om een enkele cel sorteren in elk putje van een 96-well PCR plaat met 5 ul van TCL buffer met 1% 2-mercaptoethanol. Voor EpCAM + isolatie, werden de cellen gekleurd voor 7AAD- (Life Technologies), CD45- (eBioscience), CD31- (eBioscience), TER-119- (eBioscience), EpCAM + (eBioscience); voor specifieke epitheliale cellen, we ook gekleurd voor CD24 + / – (eBioscience) en c-Kit + / – (eBioscience). Om te verrijken voor specifieke intestinale epitheliale celpopulaties, werden cellen geïsoleerd uit Lgr5-GFP muizen, gekleurd met de hierboven genoemde antilichamen en gated op GFP-high (stamcellen), GFP-low (TA’s), GFP- / CD24 + / C-Kit + / – (secretorische lineages) of GFP- / CD24- / EpCAM + (epitheliale cellen). Voor een betere Paneth cel herstel, hebben we hogere side scatter en forward scatter parameters in combinatie met CD24 + / C-Kit + om Paneth cel herstel te controleren in EpCAM + cellen. Voor tuft-2 isolatie, epitheelcellen van drie verschillende muizen werden gekleurd als hierboven, maar met behulp van EpCAM + / CD45 + tot 2.000 enkele cellen te sorteren. We gebruikten een milde sorteren poort om ervoor te zorgen dat we voldoende aantallen van deze zeldzame tuft-2-cellen, wat leidde tot een hogere verontreiniging tarief van T-cellen, die we verwijderd in onze single-cel analyse met behulp van unsupervised clustering verkregen.

Voor full-length scRNA-seq sorteren, werd de 96-wells plaat goed afgesloten met een Microseal F en gecentrifugeerd bij 800g gedurende 1 min. De plaat werd onmiddellijk bevroren op droog ijs en bewaard bij -80 ° C tot klaar voor het lysaat clean-up. Bulk populatie cellen werden gesorteerd in een Eppendorf buisje met 100 ul oplossing van TCL met 1% 2-mercaptoethanol en bewaard bij -80 ° C.

Voor druppel-gebaseerde scRNA-seq, cellen werden gesorteerd met dezelfde parameters als voor plaat-gebaseerde scRNA-seq, maar werden gesorteerd in een Eppendorf buis met 50 ul van 0,4% BSA-PBS en opgeslagen op ijs tot de GemCode single-cell-platform.

Plaat-gebaseerde scRNA-seq

Single cellen. Bibliotheken werden bereid met behulp van een aangepaste SMART-Seq2 protocol16. In het kort RNA lysaat clean-up werd uitgevoerd met RNAClean XP kralen (Agencourt), gevolgd door reverse transcriptie met Maxima Reverse Transcriptase (Life Technologies) en hele-transcriptie amplificatie (WTA) met KAPA HotStart HIFI 2 × ReadyMix (Kapa Biosystems) voor 21 cycli. WTA-producten werden gezuiverd met Ampure XP-korrels (Beckman Coulter), gekwantificeerd met Qubit dsDNA HS Assay Kit (ThermoFisher) en beoordeeld met een hooggevoelige DNA-chip (Agilent). RNA-seq bibliotheken werden geconstrueerd uit gezuiverde WTA producten met behulp van Nextera XT DNA Library Preperation Kit (Illumina). Op elke plaat, de bevolking en geen-cel controles werden verwerkt volgens dezelfde methode als voor de enkele cellen. De bibliotheken werden gesequenced op een Illumina NextSeq 500.

Bulkmonsters. Bulk populatie monsters werden verwerkt door het extraheren van RNA met RNeasy Plus Micro Kit (Qiagen) volgens de aanbevelingen van de fabrikant, en vervolgens verder met de gewijzigde SMART-Seq2 protocol na lysaat clean-up, zoals hierboven beschreven.

Droplet-gebaseerde scRNA-seq

Enkele cellen werden verwerkt door de GemCode Single Cell Platform met behulp van de GemCode Gel Bead, Chip en Bibliotheek Kits (10X Genomics, Pleasanton) volgens het protocol van de fabrikant. In het kort werden de afzonderlijke cellen gesorteerd in 0,4% BSA-PBS. Aan elk kanaal werden 6.000 cellen toegevoegd met een gemiddeld terugvindingspercentage van 1.500 cellen. De cellen werden vervolgens verdeeld in Gel Beads in Emulsion in het GemCode-instrument, waar cellysis en gebarcodeerde omgekeerde transcriptie van RNA plaatsvond, gevolgd door amplificatie, afschuiving en 5′ adaptor en monsterindexbijlage. De bibliotheken werden gesequeneerd op een Illumina NextSeq 500.

Immunofluorescentie en smFISH

Immunofluorescentie. Kleuring van dunne darm weefsels werd uitgevoerd zoals eerder beschreven34. In het kort, weefsels werden gefixeerd gedurende 14 uur in formaline, ingebed in paraffine en gesneden in 5-μm dikke secties. Secties werden gedeparaffineerd met standaard technieken, geïncubeerd met primaire antilichamen overnacht bij 4 ° C en vervolgens met secundaire antilichamen bij kamertemperatuur gedurende 30 min. De coupes werden gemonteerd met Slowfade Mountant + DAPI (Life Technologies, S36964) en verzegeld.

smFISH. Een RNAScope Multiplex Flourescent Kit (Advanced Cell Diagnostics) werd gebruikt volgens de aanbevelingen van de fabrikant met de volgende wijzigingen. De kooktijd voor het terughalen van het doelwit werd aangepast tot 12 min en de incubatie met protease IV bij 40 °C werd aangepast tot 8 min. Glaasjes werden gemonteerd met Slowfade Mountant + DAPI (Life Technologies, S36964) en verzegeld.

Gecombineerde immunofluorescentie en smFISH. Dit werd uitgevoerd door eerst het uitvoeren van smFISH zoals hierboven beschreven, met de volgende wijzigingen. Na Amp 4 werden weefselsecties gewassen in wasbuffer, geïncubeerd met primaire antilichamen overnacht bij 4 ° C, gewassen in 1× TBST driemaal en vervolgens geïncubeerd met secundaire antilichamen gedurende 30 min bij kamertemperatuur. Glaasjes werden gemonteerd met Slowfade Mountant + DAPI (Life Technologies, S36964) en verzegeld.

Image analysis

Images van weefselsecties werden genomen met een confocale microscoop Fluorview FV1200 met behulp van Kalman en sequentiële laser emissie om ruis en signaal overlap te verminderen. Schaalbalken werden toegevoegd aan elk beeld met behulp van de confocale software FV10-ASW 3.1 Viewer. Beelden werden over elkaar gelegd en gevisualiseerd met Image J software45.

Antilichamen en probes

Intestinale organoid culturen

Na crypt isolatie, werd de eencellige suspensie geresuspendeerd in Matrigel (BD Bioscience) met 1 uM Jagged-1 peptide (Ana-Spec). Ongeveer 300 crypten ingebed in 25 ul Matrigel werden uitgezaaid in elk putje van een 24-well plaat. Eenmaal gestold, werd de Matrigel geïncubeerd in 600 pi kweekmedium (Advanced DMEM / F12, Invitrogen) met streptomycine / penicilline en glutamatax en aangevuld met EGF (100 ng ml-1, Peprotech), R-spondin-1 (600 ng ml-1, R&D), noggin (100 ng ml-1, Prepotech), Y-276432 dihydrochloride monohydraat (10 μM, Tochris), N-acetyl-1-cysteïne (1 μM, Sigma-Aldrich), N2 (1X, Life Technologies), B27 (1X, Life Technologies) en Wnt3A (25 ng ml-1, R&D Systems). Verse media werd vervangen op dag 3, en organoïden werden gepasseerd door dissociatie met TrypLE en opnieuw gesuspendeerd in nieuwe Matrigel op dag 6 met een 1:3 split verhouding. Voor bepaalde experimenten werden organoïden bovendien behandeld met RANKL (100 ng ml-1, Biolegends). Behandelde organoïden werden gedissocieerd en onderworpen aan scRNA-seq met behulp van beide methoden.

Quantitatieve PCR

cDNA van 16 whole-transcriptome-amplified enkele cellen van tuft-1, tuft-2 en willekeurige EpCam + van de full-length-gebaseerde scRNA-seq platen werden gebruikt voor de relatieve qPCR. De genexpressie werd geanalyseerd door kwantitatieve real-time PCR op een LightCycler 480 Instrument II (Roche) met LightCycler 480 SYBR green mix (Roche) met de volgende primersets: HPRT1-F, GTTAAGCAGTACAGCCAAA; HPRT1-R, AGGGCATATCCAACAACAAACTT; UBC-F, CAGCCGTATATCTTCCCAGACT; UBC-R, CTCAGGGATGCCAGTAATCTA; tslp-F, TACTCTCAATCCTATCCCTGGCTG; Tlsp-R, CCATTTCCTGAGTACCGTCATTTC; Alpi-F, TCCTACCTCCATTCTCTATGG, Alpi-R, CCGCCTGCTGCTTGTAG; Dclk1-F, GGGTGAGAACCATCTACCATC; Dclk1-R, CCAGCTTTAAAGGCTCGAT. qPCR primers werden ontworpen voor een exon-exon grens in alle transcripten.

Computationele analyse

Voorbewerking van droplet-gebaseerde scRNA-seq gegevens. De-multiplexing, uitlijning naar de mm10 transcriptoom en unieke moleculaire identifier (UMI)-collapsing werden uitgevoerd met behulp van de Cellranger toolkit (versie 1.0.1) geleverd door 10X Genomics. Voor elke cel hebben we gekwantificeerd het aantal genen waarvoor ten minste een lees was in kaart gebracht, en vervolgens uitgesloten alle cellen met minder dan 800 gedetecteerde genen. Expressiewaarden Ei,j voor gen i in cel j werden berekend door UMI-tellingen voor gen i te delen door de som van de UMI-tellingen in cel j, om te normaliseren voor verschillen in dekking, en vervolgens te vermenigvuldigen met 10.000 om TPM-achtige waarden te creëren, en tenslotte log2(TPM + 1) te berekenen. Batch correctie werd uitgevoerd met behulp van ComBat46 zoals geïmplementeerd in het R-pakket sva47, met behulp van de standaard parametrische aanpassingsmodus. De output was een gecorrigeerde expressie matrix, die werd gebruikt als input voor verdere analyse.

Selectie van variabele genen werd uitgevoerd door het aanbrengen van een gegeneraliseerd lineair model op de relatie tussen de gekwadrateerde variatiecoëfficiënt en het gemiddelde expressieniveau in logaritmische ruimte, en het selecteren van genen die significant (P < 0.05) afweken van de ingerichte curve48.

Voorbewerking van SMART-Seq2 scRNA-seq gegevens. BAM-bestanden werden geconverteerd naar samengevoegd, de-multiplexed FASTQs met behulp van de Illumina-geleverde Bcl2Fastq softwarepakket v2.17.1.14. Pired-end gelezen werden in kaart gebracht om de UCSC mm10 muis transcriptoom met behulp van Bowtie49 met parameters ‘-q –phred33-quals -n 1 -e 99999999 -l 25 -I 1 -X 2000 -a -m 15 -S -p 6’, waardoor uitlijning van sequenties met een mismatch. Expressieniveaus van genen werden gekwantificeerd met behulp van TPM-waarden berekend door RSEM50 v1.2.3 in paired-end modus. Voor elke cel, kwantificeerden we het aantal genen waarvoor ten minste een gelezen werd in kaart gebracht, en vervolgens uitgesloten alle cellen met ofwel minder dan 3.000 gedetecteerde genen of een transcriptoom mapping van minder dan 40%. Vervolgens identificeerden we zeer variabele genen zoals hierboven beschreven.

Dimensionaliteit reductie met behulp van PCA en t-SNE. We beperkten de expressie matrix tot de subsets van variabele genen en cellen van hoge kwaliteit hierboven vermeld, en vervolgens gecentreerd en geschaald waarden alvorens ze in te voeren in principale componenten analyse (PCA), die werd uitgevoerd met behulp van de R-functie prcomp uit het stats pakket voor de SMART-seq2 dataset. Voor de druppel-gebaseerde dataset gebruikten we een gerandomiseerde benadering van PCA, geïmplementeerd met behulp van de rpca functie uit het rsvd R pakket, met de parameter k ingesteld op 100. Deze low-rank benadering werd gebruikt omdat ze verscheidene grootteordes sneller te berekenen is voor zeer brede matrices. Aangezien veel hoofdcomponenten zeer weinig van de variantie verklaren, kan de signaal-ruisverhouding aanzienlijk worden verbeterd door een subset van n “significante” hoofdcomponenten te selecteren. Na PCA werden significante hoofdcomponenten geïdentificeerd met behulp van de permutatietest51, geïmplementeerd met behulp van de permutatiePA-functie uit het jackstraw R-pakket. Deze test identificeerde 13 en 15 significante hoofdcomponenten in de 10X en SMART-Seq2 datasets van Fig. 1b en Extended Data Fig. 2a, respectievelijk. De scores van alleen deze significante hoofdcomponenten werden gebruikt als invoer voor verdere analyse.

Voor visualisatie werd de dimensionaliteit van de datasets verder gereduceerd met behulp van de ‘Barnes-hut’ benaderende versie van t-SNE52,53. Dit werd geïmplementeerd met behulp van de Rtsne functie uit het Rtsne R-pakket met behulp van 20.000 iteraties en een perplexiteit instelling die varieerde van 10 tot 30, afhankelijk van de grootte van de dataset.

Identificatie van celdifferentiatie trajecten met behulp van diffusiekaarten

Voor het uitvoeren van diffusie-map dimensionaliteitsreductie selecteerden we zeer variabele genen in de data als volgt. We eerst passen een nul-model voor de basislijn cel-cel genexpressie variabiliteit in de gegevens, met behulp van een power-law relatie tussen de variatiecoëfficiënt en het gemiddelde van de UMI tellingen van alle van de uitgedrukte genen, vergelijkbaar met eerder werk54. Vervolgens berekenden we voor elk gen het verschil tussen de waarde van de waargenomen variatiecoëfficiënt en de waarde die volgens het nulmodel werd verwacht (CVdiff). Het histogram van CVdiff vertoonde een ‘vette’ staart. Wij berekenden het gemiddelde μ en de standaardafwijking σ van deze verdeling, en selecteerden alle genen waarvoor CVdiff > μ + 1.67σ, wat 761 genen voor verdere analyse opleverde.

We voerden dimensionaliteitsreductie uit met behulp van de diffusiemap-benadering22. In het kort, een cel-cel overgangsmatrix werd berekend met behulp van een Gaussische kernel, met de kernel breedte aangepast aan de lokale omgeving van elke cel55. Deze matrix werd geconverteerd naar een Markoviaanse matrix na normalisatie. De rechter eigenvectoren vi (i = 0, 1, 2, …) van deze matrix werden berekend en gesorteerd in volgorde van afnemende eigenwaarde λi (i = 0, 1, 2, …), na uitsluiting van de “top”-eigenvector v0, die overeenkomt met λ0 = 1 (die de normalisatiebeperking van de Markoviaanse matrix weergeeft). De resterende eigenvectoren vi (i = 1, 2, …) definiëren de diffusie-kaart inbedding en worden aangeduid als diffusie componenten (DCk, k = 1, 2, …). We merkten een spectrale kloof tussen λ4 en λ5, en dus behouden DC1-DC4 voor zowel de initiële dataset (Extended Data Fig. 4) en de gegevens uit verschillende darm regio’s (Fig. 2c).

Verwijdering van verontreinigende immuuncellen en doubletten

Hoewel cellen werden gesorteerd voor sequencing met behulp van EpCAM, werden een klein aantal verontreinigende immuuncellen waargenomen in de 10X dataset. Deze 264 cellen werden verwijderd door een eerste ronde van unsupervised clustering (dichtheid-gebaseerde clustering van de t-SNE kaart met behulp van dbscan56 uit het R-pakket fpc), omdat ze een zeer duidelijke cluster vormden. Voor de SMART-Seq2 dataset waren verschillende cellen uitschieters in termen van bibliotheekcomplexiteit, die mogelijk overeenkwamen met meer dan één individuele cel per sequencingbibliotheek (‘doublets’). Deze cellen werden vervolgens verwijderd door het berekenen van de top 1% kwantiel van de verdeling van de gedetecteerde genen per cel en het verwijderen van alle cellen in dit kwantiel.

Cluster analyse

Om enkele cellen te clusteren door hun expressie, gebruikten we een niet-bekrachtigde clustering aanpak, gebaseerd op de Infomap grafiek-clustering algoritme 9, na benaderingen voor single-cel CyTOF data57 en scRNA-seq 10. In het kort construeerden we een k-nearest-neighbour grafiek op de gegevens met behulp van, voor elk paar van cellen, de Euclidische afstand tussen de scores van significante hoofdcomponenten aan k dichtstbijzijnde buren te identificeren. De parameter k werd gekozen om in overeenstemming te zijn met de omvang van de dataset. Specifiek, werd k ingesteld op 200 en 80 voor de druppel-gebaseerde dataset van 7.216 cellen (Fig. 1b) en voor de SMART-Seq2 dataset van 1.522 cellen (Extended Data Fig. 2a), respectievelijk. RANKL-behandelde organoïden bevatte 5.434 cellen en k werd ingesteld op 200; de Salmonella en H. polygyrus dataset bevatte 9.842 cellen en k werd ingesteld op 500. Voor clusteranalyses binnen celtypes, met name de enteroendocriene en tuft cell subsets, gebruikten we de Pearson correlatie afstand in plaats van de Euclidische afstand, en stelden k = 15, k = 30 en k = 40 in voor de enteroendocriene subtypes (533 cellen), en voor de 166 en 102 tuft cellen in de 10X en SMART-Seq2 datasets, respectievelijk. De nearest-neighbour grafiek werd berekend met de functie nng uit het R-pakket cccd. De k-nearest-neighbour grafiek werd vervolgens gebruikt als de input voor Infomap9, geïmplementeerd met behulp van de infomap.community functie uit het igraph R-pakket.

Gedetecteerde clusters werden in kaart gebracht aan celtypen of tussenliggende toestanden met behulp van bekende markers voor intestinale epitheliale celsubtypen. (Extended Data Fig. 1g, Extended Data Fig. 2a). Voor de entero-endocriene (EEC) cel subanalyse (Fig. 3), werd elke groep EEC progenitor clusters met gemiddelde paarsgewijze correlaties tussen significante principale component scores van r > 0,85 samengevoegd, wat resulteerde in vier clusters. We labelden deze vier clusters progenitor ‘A’ op basis van hoge niveaus van Ghrl, of progenitor (vroeg), (midden) of (laat) (in die volgorde) op basis van afnemende niveaus van stam (Slc12a2, Ascl2, Axin2) en celcyclus genen en toenemende niveaus van bekende EEG regulerende factoren (Neurod1, Neurod2 en Neurog3) (Extended Data Fig. 5c, Supplementary Table 6). Voor de SMART-Seq2 dataset werden twee clusters die hoge niveaus van stamcelmerkergenen uitdrukken (Extended Data Fig. 2a) samengevoegd tot een ‘stam’ cluster en twee andere clusters werden samengevoegd tot een ‘TA’ cluster.

Voor de clusteranalyse van de follikel-geassocieerd epitheel dataset van 4.700 cellen, de microfold cellen waren zeer zeldzaam (0,38%) en dus de ClusterDP methode58 werd gebruikt om ze te identificeren, omdat het empirisch beter dan de k-nearest-neighbour grafiek algoritme presteerde op deze dataset. Net als bij de k-nearest-neighbour methoden werd ClusterDP uitgevoerd met significante (P < 0.05) principale component scores (19 in dit geval) als input, en werd geïmplementeerd met de findClusters en densityClust functies uit het densityClust R pakket met parameters rho = 1.1 en delta = 0.25.

Extractie van zeldzame celtypen voor verdere analyse

De initiële clustering van de hele darm dataset (7.216 cellen; Fig. 1b) toonde een cluster van 310 EEG cellen en 166 tuft cellen. De tuft cellen werden ‘as is’ genomen voor de subanalyse (Fig. 4a, b), terwijl de EEC cellen werden gecombineerd met een tweede cluster van 239 EEC cellen die werden geïdentificeerd in de regionale dataset (Fig. 2a, rechts) voor een totaal van 549 EEC cellen. Een groep van 16 cellen co-expresseerden EEC markers Chga en Chgb met markers van Paneth cellen, inclusief Lyz1, Defa5 en Defa22, en werden daarom geïnterpreteerd als doubletten en verwijderd uit de analyse, waardoor 533 EEC cellen overbleven, die de basis vormden voor de analyse in Fig. 3. Om expressieprofielen van enterocyten van de proximale en distale dunne darm te vergelijken (Fig. 2b), werden de 1.041 enterocyten geïdentificeerd uit 11.665 cellen in de regionale dataset (Fig. 2a) gebruikt.

Het definiëren van celtype handtekeningen

Om maximaal specifieke genen voor celtypen te identificeren, voerden we differentiële expressietesten uit tussen elk paar clusters voor alle mogelijke paarsgewijze vergelijkingen. Dan, voor een gegeven cluster, werden putatieve handtekening genen gefilterd met behulp van de maximale FDR Q-waarde en gerangschikt door de minimale log2(vouwverandering). De minimale vouwverandering en maximale Q-waarde vertegenwoordigen de zwakste effectgrootte over alle paarsgewijze vergelijkingen; het is daarom een streng criterium. De in Fig. 1c, Extended Data Fig. 2b, Extended Data Fig. 8e en Supplementary Tables 2-4 en 8 getoonde cel-type signatuurgenen werden verkregen met gebruikmaking van een maximale FDR van 0.05 en een minimale log2(vouwverandering) van 0.5. In het geval van post-mitotische celtype handtekeningen, passeerden alle genen deze drempel in zowel 3′ (Fig. 1c) als full-length (Extended Data Fig. 2b) datasets.

In het geval van handtekeninggenen voor subtypen binnen celtypen (Fig. 3b, Fig. 4b, Extended Data Fig. 7b), een gecombineerde P waarde (over de paarsgewijze tests) voor verrijking werd berekend met behulp van Fisher’s methode-een soepeler criterium dan simpelweg het nemen van de maximale P waarde-en een maximale FDR Q waarde van 0,01 werd gebruikt, samen met een cut-off van minimum log2(fold change) van 0,25 voor tuft cel subtypen (Fig. 4b, Extended Data Fig. 7b, Supplementary Table 7) en van 0,1 voor EEG subtypen (Fig. 3b, Supplementary Table 6). Alle genen in de tuft cel signatuur passeerden deze cut-off in zowel 3′ (Fig. 4b) als full-length (Extended Data Fig. 7b) datasets, terwijl EEC subtype signaturen werden gedefinieerd door alleen 3′ te gebruiken. Vanwege het lage aantal cellen (n = 18), werd Fisher’s gecombineerde P waarde ook gebruikt voor de in vivo microfold cel signatuur, met een FDR cut-off van 0,001 (Fig. 5d, Supplementary Table 8). Marker genen werden gerangschikt door minimale log2 (vouw verandering). Differentiële expressie tests werden uitgevoerd met behulp van de Mann-Whitney U-test (ook bekend als de Wilcoxon rank-sum test) geïmplementeerd met behulp van de R-functie wilcox.test. Voor de infectie-experimenten (Fig. 6) gebruikten we een tweedelig ‘horde’ model om zowel de technische kwaliteit als de muis-tot-muis variatie te controleren. Dit werd geïmplementeerd met behulp van het R-pakket MAST59, en P-waarden voor differentiële expressie werden berekend met behulp van de likelihood-ratio test. Meervoudige hypothese testen correctie werd uitgevoerd door het controleren van de FDR60 met behulp van de R-functie p.adjust.

Scoren cellen met behulp van handtekening gen sets

Om een score voor een specifieke set van n genen in een bepaalde cel te verkrijgen, werd een ‘achtergrond’ gen set gedefinieerd om verschillen in sequencing dekking en bibliotheek complexiteit tussen cellen te controleren op een wijze vergelijkbaar met ref. 12. De achtergrond genenset werd geselecteerd om vergelijkbaar te zijn met de genen van belang in termen van expressieniveau. Meer bepaald werden de 10n dichtstbijzijnde buren in de tweedimensionale ruimte gedefinieerd door gemiddelde expressie en detectiefrequentie over alle cellen geselecteerd. De signatuurscore voor die cel werd vervolgens gedefinieerd als de gemiddelde expressie van de n signatuurgenen in die cel, verminderd met de gemiddelde expressie van de 10n achtergrondgenen in die cel.

Raming van de celtypebemonsteringsfrequenties

Voor elk celtype wordt de kans dat ten minste n cellen in een monster van grootte k worden waargenomen gemodelleerd met behulp van de cumulatieve verdelingsfunctie van een negatief binomiaal NBcdf(k, n, p), waarbij p de relatieve abundantie van dit celtype is. Voor m celtypes met dezelfde parameter p is de totale kans dat elk type ten minste n keer wordt aangetroffen NBcdf(k; n, p)m. Een dergelijke analyse kan worden uitgevoerd met door de gebruiker gespecificeerde parameters op http://satijalab.org/howmanycells.

EEC dendrogram

Gemiddelde expressievectoren werden berekend voor alle 12 EEC subset clusters, met behulp van log2(TPM + 1) waarden, en beperkt tot de subset van 1.361 genen geïdentificeerd als significant variabel tussen EEC susbsets (P < 0,05), zoals hierboven beschreven. De gemiddelde expressievectoren met inbegrip van deze genen werden hiërarchisch geclusterd met behulp van het R-pakket pvclust (Spearman afstand, ward.D2 clustering methode), die bootstrap betrouwbaarheidsschattingen geeft op elke dendrogram knooppunt als een empirische P-waarde over 100.000 proeven (Extended Data Fig.

Celletspecifieke transcriptiefactoren, GPCR’s en leucinerijke herhalingseiwitten

Een lijst van alle genen die zijn geïdentificeerd als transcriptiefactoren bij muizen werd verkregen van AnimalTFDB61. De set van GPCR’s werd verkregen uit de UniProt database (http://www.uniprot.org/uniprot/?query=family%3A%22g+protein+coupled+receptor%22+AND+organism%3A%22Mouse+%5B10090%5D%22+AND+reviewed%3Ayes&sort=score). Functionele annotaties voor elk eiwit (Extended Data Fig. 2d) werden verkregen van de British Pharmacological Society (BPS) en de International Union of Basic and Clinical Pharmacology (IUPHAR) (http://www.guidetopharmacology.org/GRAC/GPCRListForward?class=A). De lijst van leucinerijke herhalingseiwitten werd ontleend aan ref. 62. Voor het in kaart brengen van menselijke naar muis gennamen, werden menselijke en muis orthologen gedownload van Ensembl (laatste versie 86; http://www.ensembl.org/biomart/martview), en menselijke en muis gen synoniemen van NCBI (ftp://ftp.ncbi.nlm.nih.gov/gene/DATA/GENE_INFO/Mammalia/). Voor elk menselijk leucinerijke herhaling gen, werden alle menselijke synoniemen in kaart gebracht om het orthologe gen in de muis met behulp van de ortholoog lijst, en muis gen namen werden in kaart gebracht om die in de een-cel data met behulp van de synoniem lijst.

Cell-type verrijkte transcriptiefactoren, GPCR’s en leucinerijke herhaling eiwitten werden vervolgens geïdentificeerd door het kruisen van de lijst van genen verrijkt in elk celtype met de lijsten van transcriptiefactoren, GPCR’s en leucinerijke herhaling eiwitten hierboven gedefinieerde. Cel-type-verrijkte genen werden gedefinieerd met behulp van de SMART-Seq2 dataset als die met een minimum log2 (fold change) van 0 en een maximale FDR van 0,5, met behoud van een maximum van 10 genen per celtype in Extended Data Fig. 2e, f (volledige lijsten zijn te vinden in aanvullende tabel 5). Bovendien werd een uitgebreider panel van celtype-specifieke GPCR’s geïdentificeerd (Extended Data Fig. 2d) door een mildere drempelwaarde te kiezen. Dit werd bereikt door elk celtype te vergelijken met alle andere cellen, in plaats van de in de vorige sectie beschreven paarsgewijze vergelijkingen, en alle GPCR-genen te selecteren die differentieel tot expressie kwamen (FDR < 0,001).

Testen op veranderingen in celtypeverhoudingen

We modelleren het gedetecteerde aantal van elk celtype in elke geanalyseerde muis als een willekeurige telvariabele met behulp van een Poisson-proces. De detectiesnelheid wordt vervolgens gemodelleerd door het totale aantal geprofileerde cellen in een bepaalde muis als offsetvariabele op te geven, met de toestand van elke muis (behandeling of controle) als covariaat. Het model is geschikt met het R-commando glm uit het stats-pakket. De P-waarde voor de significantie van het effect van de behandeling werd beoordeeld met behulp van een Wald-test op de regressiecoëfficiënt.

Voor de beoordeling van de significantie van ruimtelijke distributies van EEG-subgroepen (Fig. 3e), betrof de vergelijking meer dan twee groepen. In het bijzonder was onze nulhypothese dat het aandeel van elke EEG-subgroep gedetecteerd in de drie darmregio’s (duodenum, jejunum en ileum) gelijk was. Om deze hypothese te testen, gebruikten we variantieanalyse (ANOVA) met een χ2-test op de Poisson model fit zoals hierboven beschreven, geïmplementeerd met behulp van de anova-functie uit het stats-pakket.

Genet verrijking en gen-ontologie analyse

Gene-ontologie analyse werd uitgevoerd met behulp van het goseq R-pakket63, met behulp van significant differentieel tot expressie komende genen (FDR < 0.05) als doelgenen, en alle genen uitgedrukt met log2(TPM + 1) > 3 in ten minste tien cellen als achtergrond.