A. tcga資料庫樣本哪些是腫瘤哪些是正常
答案就在TCGAbarcode,樣本標簽描述了樣本類型,是正常的還是異常的。還是對照組。比如膠質瘤RNAseq的barcode,有174個樣本類似於這個:
TCGA-06-0681-11A-41R-A36H-07
TCGA-06-0649-01B-01R-1849-01
第四個欄位:11A和01B描述的就是樣本類型,1-9是腫瘤,10-19是正常,20-29是對照。A和B我也不知道啥意思。由於TCGAbarcode欄位寬度是嚴格的。因此用substr就可提取
names=colnames(RNAseq_dat)
a=as.numeric(substr(names,14,15))
table(a)
可以看見數據中有5個是正常組織樣本
----------------------
Xena網站(網頁鏈接)有整理好的TCGA數據,包括數據集和樣本表格。樣本表格數據詳細,包含生存期,腫瘤分期分級,突變,亞型等等。