当前位置:首页 » 数据仓库 » tcga数据库
扩展阅读
webinf下怎么引入js 2023-08-31 21:54:13
堡垒机怎么打开web 2023-08-31 21:54:11

tcga数据库

发布时间: 2023-04-19 06:44:13

Ⅰ 如何快速掌握TCGA数据库

‍‍

在proportional里面搜你感兴趣的肿瘤,然后就会出现很多研究,在每个研究后面都有summary,你点击进去就有临床数据,有的还有变异和拷贝数变化的数据。目前个人感觉临床数据这块还是proportional这儿比较方便,其他的例如基因表达的数据cancer browser还是可能会好些,各种各样的都可以试试,不过原始的TCGA数据还是觉得一般是高手才去弄,新手还是多学习,站在巨人的肩膀上再去。The Cancer Genome Atlas,TCGA, 数据库。TCGA数据源大部分都是公开的。目前来能够从TCGA数据库中提取数据的处理工具有proportional。

‍‍

Ⅱ R语言提取TCGA数据库clinical.json中的临床信息

转自“ 医学统计园 ”微信公众号。

读入clinical.json文件

计算文件长度n,在这里n为348

初始化变量

利用一个敏渣毁梁派for循环由json文件中提取信息

将提桥备取的信息做成一个dataFrame

Ⅲ TCGA数据库介绍

肿瘤基因组图谱 (TCGA) 计划由美国 National Cancer Institute(NCI) 和 National Human Genome Research Institute(NHGRI)于 2006 年联合启动的项目,目前共计研究 36 种癌症类型。

TCGA 利用大规模测序为主的基因组分析技术,通过广泛的合作,理解癌症的分子机制。提高人们对癌症发病分子基础的科学认识及提高我们诊断、治疗和预缺慧防癌症的能力。 最终完成一套完整的与所有癌症基因组改变相关的“图谱”。

TCGA临床数据有两种:

数据文件有 (HTSeq count/昌扮喊 FPKM/ FPKM-UQ)3种

介绍链接

生成raw read counts数耐野据记录==在mirnas.quantification.txt==文件中。多比对用cross-mapped列标注。文件中包括associates miRNA IDs with read count and a normalized count in reads-per-million-miRNA-mapped。

RPM counts记录在 ==isoforms==.quantification.txt文件中。文件中包括miRNA表达量定量分析中的所有列,除此之外还增加了isoforms的基因组坐标信息以及miRNA信息(前体或成熟&accession)

使用Affymetrix SNP 6.0芯片,基于TCGA level 2 数据,最终生成txt文件,包含5列(片段名称,染色体,基因组位置,结合到芯片上的探针数量,seqment_mean)

包括以下几个平台:

文件包括以下这些列:

Ⅳ tcga数据库样本哪些是肿瘤哪些是正常

答案就在TCGAbarcode,样本标签描述了样本类型,是正常的还是异常的。还是对照组。比如胶质瘤RNAseq的barcode,有174个样本类似于这个:

TCGA-06-0681-11A-41R-A36H-07

TCGA-06-0649-01B-01R-1849-01

第四个字段:11A和01B描述的就是样本类型,1-9是肿瘤,10-19是正常,20-29是对照。A和B我也不知道啥意思。由于TCGAbarcode字段宽度是严格的。因此用substr就可提取

names=colnames(RNAseq_dat)

a=as.numeric(substr(names,14,15))

table(a)

可以看见数据中有5个是正常组织样本

----------------------

Xena网站(网页链接)有整理好的TCGA数据,包括数据集和样本表格。样本表格数据详细,包含生存期,肿瘤分期分级,突变,亚型等等。

Ⅳ 癌细胞全部转录本有那些库可以查,TERRA转录本可以查到么

癌细胞全部转录氏袜滚本的数据库有很多,如TCGA (The Cancer Genome Atlas)、CCLE (Cancer Cell Line Encyclopedia)、HGMD (Human Gene Mutation Database) 等。这些数据库都整合了大歼余量的癌症组织和细胞系的转录组测序数据,提供了基因表达水平、突变情况、染色体重排、分子亚型等信息,可以为癌症研究和治疗提供参考。
至于TERRA转录本是否能被查询到,则取决于所使用的数据库。
举例来说,TCGA数据库中包含了 TERRA 转录本的表达信息,可以通过 TCGA 数据门户网站进行检索与下载。而其它一好迟些数据库可能没有包含 TERRA 的信息,需要具体查询。

Ⅵ TCGA数据库中含有的癌症名称,简写和中文名称

Abbr 英文名称 中文名称
ACC Adrenocortical carcinoma 肾上腺皮质癌
BLCA Bladder Urothelial Carcinoma 膀胱尿路上皮癌
BRCA Breast invasive carcinoma 乳腺浸润癌
CESC Cervical squamous cell carcinoma and endocervical adenocarcinoma 宫颈鳞癌和腺癌
CHOL Cholangiocarcinoma 胆管癌
COAD Colon adenocarcinoma 结肠癌
COADREAD Colon adenocarcinoma/Rectum adenocarcinoma Esophageal carcinoma 结直肠癌
DLBC Lymphoid Neoplasm Diffuse Large B-cell Lymphoma 弥漫性大B细胞淋巴瘤
ESCA Esophageal carcinoma 食管癌
FPPP FFPE Pilot Phase II FFPE试点二期
GBM Glioblastoma multiforme 多形成性胶质细胞瘤
GBMLGG Glioma 胶质瘤
HNSC Head and Neck squamous cell carcinoma 头颈鳞状细胞癌
KICH Kidney Chromophobe 肾嫌色细胞癌
KIPAN Pan-kidney cohort (KICH+KIRC+KIRP) 混合肾癌
KIRC Kidney renal clear cell carcinoma 肾透明细胞癌
KIRP Kidney renal papillary cell carcinoma 肾乳头状细胞癌
LAML Acute Myeloid Leukemia 急性髓细胞样白血病
LGG Brain Lower Grade Glioma 脑低级别胶质瘤
LIHC Liver hepatocellular carcinoma 肝细胞肝癌
LUAD Lung adenocarcinoma 肺腺癌
LUSC Lung squamous cell carcinoma 肺鳞癌
MESO Mesothelioma 间皮瘤
OV Ovarian serous cystadenocarcinoma 卵巢浆液性囊腺癌
PAAD Pancreatic adenocarcinoma 胰腺癌
PCPG Pheochromocytoma and Paraganglioma 嗜铬细胞瘤和副神经节瘤
PRAD Prostate adenocarcinoma 前列腺癌
READ Rectum adenocarcinoma 直肠腺癌
SARC Sarcoma 肉瘤
SKCM Skin Cutaneous Melanoma 皮肤黑色素答燃改瘤
STAD Stomach adenocarcinoma 胃癌
STES Stomach and Esophageal carcinoma 胃和食管癌
TGCT Testicular Germ Cell Tumors 睾丸清判癌
THCA Thyroid carcinoma 甲状腺癌
THYM Thymoma 胸腺癌
UCEC Uterine Corpus Endometrial Carcinoma 子段如宫内膜癌
UCS Uterine Carcinosarcoma 子宫肉瘤
UVM Uveal Melanoma 葡萄膜黑色素瘤

Ⅶ TCGA数据库下载的数据是图片吗

是。
TCGA作为肿瘤研究中资源携侍告最丰富,数据最权威的数据库,自然受到广大辩明科研工作者的深入挖掘,所以图片形式谈渗是最方便看的。

Ⅷ 怎么找剪切因子

找剪切因谨腔子,简单而言就是,一个基因从DNA-mRNA的过程当中,由于剪切位点的不同,会形成不同的mRNA剪切变异体。对于可变剪悄神切模式,之前的介绍TCGA SpliceSeq数据库启晌亏的时候提到了数据库当中包含的其中7种可变剪切模式。具体的可见之前的帖子: TCGA Spliceseq
在这个数据库当中提到的属于经典的可变剪接模式。随着二代测序的技术的使用,也会发现一些额外的剪切模式。比如这次我们要提到的外显子内含子剪切(exitrons(exonic introns) splicing, EIS)。既然二代测序技术可以发现EIS。那么就可以使用TCGA数据库来寻找肿瘤当中的EIS。因此也就可以对肿瘤挡着的EIS事件进行全面的分析。剪接因子是参与RNA前体剪接过程的蛋白质因子。根据其功能作用,可以分为核小核糖核蛋白颗粒(snRNP)蛋白因子和非snRNP蛋白因子。

Ⅸ tcga上的status是什么

重要状态。TCGA是肿瘤数据库的没宏简称,status是TCGA的重要状态,包括生存时间及病人生枯缺册存扮卖状态。

Ⅹ DESeq2处理TCGA数据库Seq-count数据

1、DESeq2需要导入两个数据集:mycounts, colData。先说mycounts,这就是处理完的TCGA数据RNAmatrix.txt,直接读入即可。

2、colData就是对每个样本的一个情况辩迹说明。这个可以生成,也可以自己写一友旅个保存为csv格式。我携告并一般自己写。

3、构建矩阵

4、输出结果