A. tcga数据库样本哪些是肿瘤哪些是正常
答案就在TCGAbarcode,样本标签描述了样本类型,是正常的还是异常的。还是对照组。比如胶质瘤RNAseq的barcode,有174个样本类似于这个:
TCGA-06-0681-11A-41R-A36H-07
TCGA-06-0649-01B-01R-1849-01
第四个字段:11A和01B描述的就是样本类型,1-9是肿瘤,10-19是正常,20-29是对照。A和B我也不知道啥意思。由于TCGAbarcode字段宽度是严格的。因此用substr就可提取
names=colnames(RNAseq_dat)
a=as.numeric(substr(names,14,15))
table(a)
可以看见数据中有5个是正常组织样本
----------------------
Xena网站(网页链接)有整理好的TCGA数据,包括数据集和样本表格。样本表格数据详细,包含生存期,肿瘤分期分级,突变,亚型等等。