tcga資料庫培訓_如何快速掌握TCGA資料庫

㈠ tcga資料庫firebrowse數據怎麼分析

TCGA由NCI牽頭，作為美國攻克癌計劃的一個大的project，投入巨大的人力和資金，較早的進行深度測序，提供Gene expression, DNA methylation, Copy Number Variant, Mutation還有更深度的exon expression外顯子測序結果，其臨床數據整理的相對最完整，指標最多。在TCGA中直接下載數據的方法較為繁瑣，但是有多個網站提供TCGA數據（包括表達和臨床等）完善的整理：GDAC， Cancer Browser和cBioportal是其中整理最為完整和可靠的。GDAC由美國MIT和Harvard共建的Broadinstitute運行，UCSC運行著Cancer Browser 和Xena, cBioportal由MemorialSloan-Kettering Cancer Cente建立，提供較為完善的TCGA數據為基礎的各類信息檢索服務。

㈡ TCGA 數據分析實戰 —— WGCNA

加權基因共表達網路分析（ WGCNA , Weighted gene co-expression network analysis ）是一種用來描述不同基因在樣本中的表達關聯模式的系統生物學方法。

通過將表達高度相關的基因聚集成不同的模塊，並探究不同模塊與樣本表型之間的關聯。還可以探究模塊內的關鍵基因的功能，作為潛在的生物標志物或治療靶點進行後續分析

WGCNA 模塊識別演算法大致包含以下幾個步驟：

輸入數據的格式要符合行為樣本，列為基因的矩陣格式，因為計算的是基因之間的相關性，所以數據可以是標准化的表達值或者是 read counts 。

探針集或基因可以通過平均表達量或方差（如中位數或絕對中位差）進行過濾，因為低表達或無變化的基因通常代表噪音。

注意：並不推薦使用差異基因作為輸入矩陣，通過差異表達基因過濾將會導致一個（或幾個高度相關的）基因聚成一個模塊，同時，也破壞了無標度拓撲的假設，所以通過無標度拓撲擬合來選擇軟閾值的將會失敗。

主要是過濾一些離群或異常的樣本，可以對樣本數據進行聚類，如果存在異常樣本，則其在聚類圖中會顯示出離群現象，可考慮將其剔除。

首先，對基因的表達量進行 0-1 標准化，即

其中，為樣本方差

然後，使用 pearson 計算基因之間的相關性

兩個基因的共表達相似性表示為

然後將基因之間的相似度轉換為鄰接值，對於非加權網路，計算方式為

其中為硬閾值，大於等於該閾值表示這兩個基因之間存在連接，而低於閾值則認為兩個基因沒有連接。它們並不能反映共表達信息的連續性質，因此可能導致信息損失。例如，閾值為 0.8 ，那 0.79 是不是應該也有一定的相關性呢？

在介紹軟閾值之前，我們先引出兩個圖論的概念：

度表示為節點所連接的邊的數量

無標度網路具有很好的魯棒性，網路中某些節點的錯誤並不會導致整個網路的癱瘓，具有很多的代償連接。而這一特點，與生物體中的復雜生化網路非常類似，只有少數的基因執行著關鍵性的功能，而大多數的基因執行較為單一的功能。

無標度網路中，節點 d 的度為 k 的概率滿足冪律分布

通過對數變換，變為

從這個公式可以看出，節點的度數與其出現的概率是負相關的，通過計算各個節點的度數 k 與該度數 k 在所有節點度數中的佔比的 pearson 相關性，我們可以得到關於無標度網路的適應系數。該系數越接近 1 則越像無標度網路，越接近 0 則越像隨機網路。

所以，對於加權網路，其鄰接值的計算方式為：

當軟閾值時，會讓相關系數小的更小，而大的更大。

可以根據適應系數來篩選軟閾值

光有鄰接矩陣是不夠的，基因間的相似性應該要同時體現在其表達和網路拓撲水平，為了能能夠盡可能地最小化噪音和假陽性的影響，因此引入了拓撲重疊矩陣

這個概念的主要表達的是，兩個基因 a 和 b 之間的相關性，不光考慮兩個基因的表達相關性，還需要考慮一些 A 和 B 共有的表達相關基因 u ，如果 u 足夠多，則說明 A 與 B 的網路重疊性強，應該被聚成一類

換個說法，兩個人之間的親密度不僅與他們兩人之間有關，還與他們的共同好友有關，共同好友越多，說明他們兩人之間應該越親密

計算公式為：

其中，分別為 i 和 j 的度數

表示的是兩個基因的相似性，轉換成距離度量就是，並使用該值來進行聚類，並分割模塊

我們以 TCGA 的乳腺癌數據作為示例，來完整的做一遍 WGCNA 分析

先安裝模塊

獲取 50 個樣本的 FPKM 數據， WGCNA 最少需要 15 個樣本， 20 個以上的樣本會更好，樣本越多越好，這里為了方便，我們只挑了 50 個樣本

過濾基因，取絕對中位差 top 5000 的基因

過濾異常樣本

確定軟閾值的時候，需要選擇網路類型，不同的網路類型，其計算鄰接值的方法是不一樣的。

默認為 unsigned

我在 RStudio 中使用 enableWGCNAThreads() 會引發下面的錯誤

所以，我改用了 allowWGCNAThreads() ，就可以運行了

繪制軟閾值曲線

其中橫坐標為軟閾值的梯度，第一幅圖的縱坐標為無標度網路適應系數，越大越好；第二幅圖的縱坐標為節點的平均連通度，越小越好。

查看系統給我們推薦的軟閾值

與我們從圖上看到的結果是一致的，如果出現了異常的值，也就是說在有效的 power 梯度范圍內（無向網路在 power 小於 15 ，有向網路 power 小於 30 ），無法使適應系數的值超過 0.8 ，且平均連接度在 100 以上

可能是由於部分樣品與其他樣品差別較大。這可能是由於批次效應、樣品異質性或實驗條件對表達影響太大等因素造成的。

可以對樣本繪制聚類圖來查看有無異常樣品，如果這確實是由於生物學差異引起的，也可以使用下面的經驗 power 值。

一步法構建網路，我們使用上面推薦的軟閾值 5

查看各模塊的基因數量

可以使用 labels2colors 函數將數值轉換為顏色名稱

使用 plotDendroAndColors 函數來展示各個模塊的層次聚類結果

其中，無法聚類到模塊中的基因會標示為灰色，如果灰色區域較多，可能由於樣本中基因共表達趨勢不明顯，可能需要調整基因過濾的方法。

展示模塊之間的相關性

展示 TOM 矩陣，為了節省時間，我們只使用第一個聚類分支

或者更換一種配色

顏色越深表示基因表達的相關性更高，我們可以看到，模塊內的基因之間具有較高的共表達，而模塊之間的表達相關性較低

將整個網路全部導出成 Cytoscape 輸入文件

保存網路

也可以提取某一模塊的基因

獲取到基因之後，可以進行富集分析找到相關的生物學通路

我們可以分析各網路模塊與樣本表型之間的關系，從而找到與我們感興趣表型相關的模塊。

樣本表型可以是各種指標，比如腫瘤分期分級、已知的分類亞型、葯物響應等，並計算模塊與這些表型之間是否具有顯著相關性

但是模塊是一個矩陣，無法直接計算矩陣和向量之間的相關性，需要轉換為向量之間的相關性。

而 WGCNA 選擇使用 PCA 的方法對數據降維，並將第一主成分定義為 eigengenes ，然後計算 eigengenes 與表型之間的相關性

先獲取並處理臨床數據

計算模塊與 ER 狀態的相關性

如果使用的是其他相關性方法，則可以使用 bicorAndPvalue 函數來計算顯著性

繪制相關性圖

可以看到有些模塊的相關性挺高的，而且也具有顯著性。我們計算出模塊與表型之間相關性之後，可以挑選最相關的那些模塊來進行後續分析。但是，模塊本身可能還包含很多的基因，還需要進一步識別關鍵基因基因。

如何尋找關鍵基因呢？我們可以計算所有基因與模塊之間的相關性，也可以計算基因與表型之間的相關性。如果存在一些基因，既與表型顯著相關又跟某個模塊顯著相關，那麼這些基因可能就是非常重要的關鍵基因了

從上圖中，我們可以看到 paleturquoise 具有較高的相關性，且具有顯著性，我們就來嘗試找找這個模塊的關鍵基因

計算基因與模塊的相關性

再計算基因與表型的相關性

展示模塊內基因與模塊和表型之間的相關性

從圖中我們可以看出，基因與表型的相關性和基因與模塊的相關性還是有一定的線性趨勢的，這說明與表型高度相關的基因，通常也是該表型對應模塊內比較重要的基因。

因此，當我們要選擇關鍵基因時，推薦選取散點圖中右上角部分的基因，即兩個相關性均較大的基因

我們可以導出這個模塊的網路

㈢ TCGA甲基化晶元數據質控和過濾

在step1中，我們獲得了TCGA中OSCC 的32個病人的T-N配對樣本和對應的臨床信息,並將其組成了一個名為my_Load的ChAMP對象。

做後續差異分析之前，需要對信號值矩陣進行歸一化。這一步驟消耗計算資源較多，配置不夠可能會跑很久或者會中斷。

刪除缺失值樣本後，還剩58個（29對）樣本。

圖中看出三個樣本異常,刪掉它們和它們的配對樣本。

根據top1000sd的熱圖和相關性熱圖，會發現三個樣本是異常的，因此又剔除3對，剩下26對（52個）樣本，用於下一步的差異分析。我試了一下這三個樣本不刪除的話，後面做差異甲基化位點的熱圖也是聚類不成功的，刪掉會好些。

㈣ TCGA數據挖掘五：突變數據畫圖

（這里沒有把整理數據步驟放進去，直接載入的已經整理好的maf文件）

三.畫基因突變瀑布圖

縱是基因，取的突變數量前30個；橫的是樣本
每橫條代表這個基因在哪些樣本中產生突變

㈤如何快速掌握TCGA資料庫

參加培訓班——最快速的方法。有些生物信息公司會針對高校教師和醫師開生信培訓班，我導師帶著我上過幾次，有TCGA、Oncomine和R的。缺點是價格貴，一次一天兩三千，優點是上手快，而且會有後續服務，比如課上完後你在qq群里提問，一般公司技術人員都會給你解決。我放幾張上完培訓班後發的資料，是課上PPT轉的PDF。另外再推薦一本中文教材，可以做補充用。優點是淺顯易懂，缺點是不夠深入且作者態度傲嬌，但書還可以，《R語言與Bioconctor-生物信息學應用》，隨著大數據時代的到來，各種生物類公共資料庫井噴，其中就包括癌症領域熟為人知的癌症基因圖譜The Cancer Genome Atlas (TCGA)資料庫。TCGA由NCI牽頭，作為美國攻克癌計劃的一個大項目，投入了巨大的人力和物力，系統提供了癌症多組學測序和晶元數據，包括Gene expression, DNA methylation, Copy NumberVariation, Mutation等結果，同時也附有相應各測序樣本的完整臨床資料。TCGA為腫瘤基礎醫學和轉化醫學研究者提供了海量的基因組數據和與其關聯的臨床數據,這為挖掘有意義的基因組變化和發現影響腫瘤起始、發展、分化、轉移等生物學機制提供了海量數據基礎。然而傳統的基礎醫學和轉化醫學研究者缺乏信息學基礎來處理大規模癌症數據,因而在面對這些極其有價值的基因組數據時,往往心有餘而力不足。作為醫學信息領域研究者,我們需要將信息學和統計學知識運用到癌症基因組學數據分析的研究當中,作為連接大數據與基礎醫學研究者之間的一個紐帶,幫助研究者去更好地挖掘探索這些數據。

㈥如何快速掌握TCGA資料庫

如何快速掌握TCGA資料庫
讀tcga工作組發的文章,直接讀發在cell上的一篇泛癌症的文章,正文➕附件,能復現文章中的結果,就行了。

㈦如何快速掌握TCGA資料庫

tcga工作組發的文章。
The Cancer Genome Atlas （TCGA，https://tcga-data.nci.nih.gov/tcga/tcgaHome2.jsp）資料庫。TCGA數據源大部分都是公開的。
目前來能夠從TCGA資料庫中提取數據的處理工具有cBioPortal（http://www.cbioportal.org/public-portal/cgds_r.jsp），ICGC（http://dcc.icgc.org/download/current）和GenePattern（http://www.broadinstitute.org/cancer/software/genepattern/download/index）。

㈧第一次做生物信息學，求助

你這個問題好大，生物信息學包含的內容太多，主要看你需要做哪些分析，是想學習分析，還是只是需要發表論文，如果學習，那是一個系統的學習，推薦學習兩門語言，R語言和PERL語言，學習兩個資料庫，GEO和TCGA，這兩個資料庫是現在的主流，需要掌握的。學習資源可以取生信自學wang和丁香園，都可以學到不少東西。如果是寫論文，可以直接找生信分析的人，把分析好的數據和圖片給你，你就可以寫論文了，當然找人家做一般都是有償的。

學習語言：R
perl程序

兩大資料庫

GEO晶元資料庫
TCGA癌症資料庫，包括癌症的臨床信息，表達信息，甲基化，SNP，數據量大，全面

㈨ GEO數據集作為驗證集,需要和TCGA數據進行數據矯正嗎

看情況，有些需要。GEO通常是經過了標准化和對數轉換的數據，但是不是所有的都是。

tcga資料庫培訓

學習語言：R

perl程序

兩大資料庫

與tcga資料庫培訓相關的內容