當前位置:首頁 » 數據倉庫 » 免疫資料庫分析
擴展閱讀
webinf下怎麼引入js 2023-08-31 21:54:13
堡壘機怎麼打開web 2023-08-31 21:54:11

免疫資料庫分析

發布時間: 2023-04-01 10:35:55

⑴ 單細胞多模態數據整合分析

隨著單細胞測序技術的發展,多種組學的單細胞數據也越來越多,要如何更好的使用多組學的數據去解析樣本的細胞組成和特徵情況呢?今年4月份發表在Cell雜志上單細胞多模態數據的整合分析這篇文章中介紹了WNN(Weighted-nearest neighbor,加權最近鄰)的演算法,seurat團隊使用不同的數據集對演算法模型的構建、驗證及應用進行了深入淺出的說明。在對文章進行說明前,首先來了解一下10XGenomics推出的一份樣本獲得兩種組學的產品10XATAC_GEM雙組學的原理。

單細胞轉錄組的優勢在於可以發現新的細胞類群,但難以發現分子相似,功能不同的類群,例如T細胞中,RNA量少,RNA酶多,就難以區分亞類群,而此時多組學就有了更多的優勢。10X單細胞雙組學的原理如下圖所示:

獲取細胞核後,先利用轉座酶試劑對其進行轉座反應,對染色質開放區的DNA進行打斷和片段化,單細胞分選,油包水液滴(GEM)中並被回收,隨後細胞核開始裂解並釋放出DNA片段及mRNA,在GEM液滴中完成逆轉錄反應,同時為DNA片段及cDNA標記上該液滴中Gelbead所帶有的特定Barcode標簽序列。最終構建出如下圖所示的兩種不同的文庫包括單細胞核轉錄組文庫和ATAC的文庫:

這兩種文庫與單獨的轉錄組和ATAC文庫無異,僅在ATAC的index序列中增加了8bp的spacer序列。

那麼問題來了如何整合這兩個組學的數據呢?seurat團隊給我們提供了一個有效的演算法和思路。

多模態分析(multimodal analysis)就是同時測量單細胞的多模態數據,它代表了單細胞基因組學的一個發展方向,同時也需要基於多種數據類型的新的計算方法來描述細胞狀態。文章介紹了「加權最近鄰(weighted-nearest neighbor,WNN)」分析:使用一個無監督的框架來學習每個細胞中每種數據類型的相對效用,使多種模式的整合分析成為可能。將文章的演算法應用於包含幾十萬個人類白細胞的CITE-seq數據集以及228個抗體的panel上,以構建一個循環免疫系統的多模態參考圖譜。文章表明整合分析大大提高了描述細胞狀態的能力,並驗證了新的淋巴亞群的存在。此外,文章還演示了如何利用這一參考快速繪制新數據集粗顫仿,並解釋免疫接種和COVID-19的免疫反應。

文章概覽如下:

對人類免疫系統中豐岩纖富多樣的細胞類型進行分類鑒定,對單細胞基因組學來說是一個有力的證明,但也展現出了他的局限性。雖然單細胞轉錄組 (scRNA-seq)能夠發現異質組織中的新細胞類型和狀態,但單靠轉錄組學常常無法分離分子上相似但功能上不同的免疫細胞類型。盡管T細胞具有功能多樣性,但不同的T細胞群,如效應細胞、調節細胞、細胞內固定細胞和黏膜相關不變T細胞(MAIT),即使使用最敏感和最尖端的技術,通常也不能僅用scRNA-seq有效地分離它們。

多模態單細胞技術,在同一細胞中同時描述多種數據類型,代表了洞衫細胞狀態發現和鑒定的新前沿。例如,最近引入了CITE-seq,它利用寡核苷酸偶聯抗體,通過測序抗體衍生標簽(antibody-derived tags ,ADTs),同時量化單細胞內RNA和表面蛋白的豐度。此外,隨著技術進步,現在可以在染色質可及性(ATAC)、DNA甲基化、核小體佔位(nucleosome occupancy )或空間定位的同時對轉錄組進行分析。這些方法都提供了一個令人興奮的解決方案,以克服scRNA-seq固有的局限性,並探索多種細胞模式如何影響細胞狀態和功能。

在這里,文章引入了「加權最近鄰」(weighted-nearest neighbor,WNN)方法,這是一個分析框架,用於集成細胞內測量的多種數據類型,並獲得細胞狀態的聯合定義。該方法是基於非監督策略來學習細胞特定模態的「權重」,它反映每個模態的信息內容,並確定其在下游分析中的相對重要性。我們證明,WNN分析大大提高了我們定義多種生物數據類型中的細胞狀態的能力。我們利用這種方法,基於包含211,000人外周血單核細胞(PBMC)的CITE-seq數據集生成多模式「圖譜」,具有可擴展228個抗體的大細胞表面蛋白標記panel。利用這個數據集來識別和驗證人類淋巴細胞中的異質細胞狀態,並探索人類免疫系統對疫苗接種和SARS-CoV-2感染的反應。WNN在開源R工具包Seurat的更新版本中實現,代表了對單細胞數據進行綜合多模態分析的廣泛適用的策略。

文章使用臍帶血單核細胞的CITE-seq數據和10個免疫標記共檢測8617個細胞來進行演算法的構建。要整合分析這兩種狀態的數據,要求分析方法滿足以下條件:第一,robust,適應不同模態的數據;第二,能夠進行多模態下游分析;第三,多模態比單模態下,性能能強。基於這個數據和要求構建了WNN的演算法。如下圖所示,在分析轉錄組時,CD8+和CD4+ T細胞部分混合在一起,但在蛋白數據中清晰分離。相比之下,傳統的樹突狀細胞(cDCs),以及罕見的紅系祖細胞和小鼠類3T3對照,在分析RNA時形成不同的簇,但根據表面蛋白豐度顯示存在與其他類型的細胞混合。對每個細胞,首先計算每個模態k=20個最近鄰的集合,接下來分別對蛋白近鄰的分子和RNA近鄰的分子表達量求平均值,並將平均值與原始值進行比較。結果顯示基於蛋白knn的預測比基於RNA knn的預測更准確。然後利用預測的相對准確性來計算RNA和蛋白質的權重,從而衡量每個細胞中的相對信息。

WNN工作流中,關鍵的步驟如下:1.獲得各模態預測和跨模態預測;2.基於細胞特定帶寬核(cell-specific bandwidth kernel)將這些預測轉化為預測親和力;3.使用softmax變換計算模態權重。RNA和蛋白質模態權重是非負的,對每個細胞都是唯一的,總和為1。

最後一步整合並創建一個加權最近鄰圖(WNN圖),基於標准化後的RNA和蛋白質的加權平均值,計算一組新的knn的細胞。計算公式如下圖:

驗證數據集1:CITE-seq和25中抗體,共檢測30672個細胞

該數據集的結果表明WNN的整合大大提高了對細胞狀態的注釋,相較於單一模態更加精細化,更加完善,例如T細胞組,在scRNA分析中基本被掩蓋,但是卻有較高的蛋白模態的權重。驗證WNN的穩定性時,高斯噪音比重增加時會降低蛋白模態在數據分析中的比重。

驗證數據集2:10xGenomic PBMC細胞的ATAC和轉錄組數據,共檢測11351個細胞

該數據集結果表明,模態組合展現了更優秀的免疫亞群的分類,其中ATAC-seq數據更能分離初始CD8 +及CD4 + T細胞狀態由於可靠的檢測細胞特定類型開放的染色質區域。該演算法能夠更敏感和強勁捕獲異質性,可靈活地應用於多種數據類型,進行綜合多模態分析。

驗證數據集3:ASAP-seq HumanPBMC細胞的ATAC數據和227個蛋白,共檢測4725個細胞

驗證數據集4:SHARE-seq 小鼠的皮膚細胞的ATAC數據和轉錄組數據,共檢測34774個細胞

以上兩個數據集同樣證明了WNN優秀的整合分析的能力,更加的精細化。

文章應用這個分析方法研究了多個主題方向,其中之一就是人類外周血單核細胞的多模態圖譜。利用CITE-seq技術以及優化的抗體panel和整合的WNN分析策略,生成人類PBMC的多模態圖譜。從8名參與艾滋病毒疫苗試驗的志願者中獲得了PBMC樣本,年齡跨度20-49歲(中位年齡36.5歲)。每個受試者在三個時間點採集PBMCs:注射HIV疫苗前(第0天)、第3天和第7天。整個數據集由24個樣本組成,並使用「Cell hash」來最小化技術批次效應。對於每個樣本,我們使用10X Chromium 3 '(使用228 TotalSeq A抗體)對細胞進行分析,總共代表了161,764個細胞(平均8,003個RNA分子/細胞,5,251個ADT/細胞)。並且還使用ECCITE-seq對所有樣本中共49,147個細胞進行了分析,該技術可使用10X 5 '技術對表面蛋白進行。雖然後一組實驗包含了54種抗體,其中包括實驗室偶聯抗體和TotalSeq-C試劑,反映了在實驗時商業偶聯的可用性,但我們也能夠對這些細胞進行免疫庫圖譜分析。經過NovaSeq測序、嚴格的質量控制和雙重過濾(補充方法),我們最終的數據集包含210,911個細胞,並允許我們分析靜息(未接種)和激活(接種後)免疫系統的細胞異質性。

該WNN分析中鑒定了57個類群,包括所有主要和次要的免疫細胞類型,並揭示了細胞的多樣性,特別是在淋巴細胞中。除了罕見的細胞類型外,每一類群的細胞都來自全部24個樣本。我們的聚類可以分為幾個大類別,包括CD4 + T細胞(12類),CD8 + T細胞(12類),非傳統的T細胞(7類),NK細胞(6類),B細胞,漿細胞和plasmablasts(8類),樹突細胞和單核細胞(8類),和罕見的集群造血祖細胞、血小板、紅細胞和循環先天淋巴細胞(ILC)。為了更好的解釋聚類結果,文章為將細胞進行三個粒度越來越大的注釋(級別1,8個類別;第2級,30個類別;3級,57個類別)。雖然在T細胞亞群有較大程度的異質性,我們的分析明確確定異構子集的髓細胞與最近的高解析度scRNA-seq完全整合分析排序的數量,包括極其罕見的人群(0.02%)定義的樹突狀細胞表達 AXL 和SIGLEC6。

總之,WNN演算法的分析有助於揭示細胞的亞種群差異。雖然我們目前對WNN分析的實現側重於對兩種模式的分析,但隨著這些技術的成熟,該框架可以很容易地擴展到處理任意數量的多模態數據。因此,其為綜合多模態分析提供了一種途徑,可以超越細胞的局部和轉錄聚焦的觀點,並對細胞行為、身份和功能進行統一定義。

[1] Hao Y , Hao S , Andersen-Nissen E , et al. Integrated analysis of multimodal single-cell data[J]. 2021.
[2] https://www.10xgenomics.com/
[3] https://atlas.fredhutch.org/nygc/multimodal-pbmc/

⑵ 免疫組化spss如何進行統計分析

統計分析的步驟:
1. 准備數據:將收集衫螞寬到的數據輸入到SPSS數據文件中;
2. 數據清理:檢查數據是否有缺失值、異常值等問題,並採取相應的措施進行處理;
3. 匯總數據:計算變數的均值、標准差、極差等統計量,來匯總數據;
4. 可視化:通過圖表等方式顯示數據,以更直觀的方式探究其潛在的規律;
5. 假設檢驗:通過t檢驗、卡方檢驗、ANOVA等統計方法,來檢驗研究假設;
6. 回歸分析:通過相關分析、回歸分析物御、多元回歸分析或亮等方法,來研究變數之間的關系;
7. 決策樹:以決策樹的形式,對數據進行分類,以得出最佳決策;
8. 聚類分析:通過聚類分析,將數據分為若干類,以得出最佳結果。