当前位置:首页 » 网页前端 » 全基因组覆盖度折线图脚本
扩展阅读
webinf下怎么引入js 2023-08-31 21:54:13
堡垒机怎么打开web 2023-08-31 21:54:11

全基因组覆盖度折线图脚本

发布时间: 2023-05-09 19:55:40

⑴ 全基因组测序技术

问题一:全基因组测序的技术路线 提取基因组DNA,然后随机打断,电泳回收所需长度的DNA片段(0.2~5Kb),加上接头, 进行基因簇cluster制备或电子扩增E-PCR,最后利用Paired-End(Solexa)或者Mate-Pair(SOLiD)的方法对插入片段进行测序。然后对测得的序列组装成Contig,通过Paired-End的距离可进一步组装成Scaffold,进而可组装成染色体等。组装效果与测序深度与覆盖度、测序质量等有关。常用的组装有:SOAPdenovo、Trimity、Abyss等。

问题二:全基因组重测序的技术路线 提取基因组DNA,利用Covaris进行随机打断,电泳回收所需长度的DNA片段(0.2~5Kb),加上接头, 进行cluster制备 (Solexa)或E-PCR (SOLiD),最后利用Paired-End(Solexa)或者Mate-Pair(SOLiD)的方法对插入片段进行重测序。图1-1,以SOLiD为例,说明整个实验方案。双末端(Paired-End)测序原理测序深度(Sequencing Depth):测序得到的碱基总量(bp)与基因组大小(Genome)的比值,它是评价测序量的指标之一。测序深度与基因组覆盖度之间是一个正相关的关系,测序带来的错误率或假阳性结果会随着测序深度的提升而下降。重测序的个体,如果采用的是Paired-End或Mate-Pair方案,当测序深度在10~15X以上时,基因组覆盖度塌辩和测序错误率控制均得以保证。测序深度对基因组覆盖度和测序错误率的影响(HOM:纯合体 HET:杂合体)

问题三:什么是基因组测序技术 自1998年美国塞莱拉团首缺遗传公司组建以来,人类基因组研究开始由两部分科学家同时展开,分别是由公共经费支持的人类基因组工程和美国塞莱拉遗传公司。在研究过程中,他们也分别采用了两种不同的测序和分析的方法。塞莱拉公司的核心分析方法被称为霰弹法,人类基因组工程则采用了克隆法。
所谓霰弹法,其实是一种高度计算机化的方法,它先把基因组随机分成已知长度(2000个碱基对、1万个碱基对、5万个碱基对)的片段,然后用数学算法将这些片段组装成毗邻的大段并确定它们在基因组上的正确位置。
塞莱拉公司的科学家先用霰弹法测序DNA,并将整个基因组覆盖8次,然后用两个数学公式将人类基因组序列多次组装起来,确定出基因中的转录单元,预测出60%的已识别基因的分子功能。最后研究人员将人类基因组信息与此前已完成的果蝇和线虫的基因组序列进行比较,从而找出了三者共有的核心功能。芹粗
而人类基因组工程采用的克隆法则通过先复制更大段的人类基因序列,然后将它们绘制到基因组的适当区域进行研究。这种方法需要研究人员在早期把较多的时间和精力放到克隆和绘制草图上。
两个研究组将所得数据进行对比,经人类基因组工程的科学家、《科学》和《自然》杂志高级指导编辑评估,表明塞莱拉公司的基因组分析与人类基因组工程的分析结果虽然存在一些差异,但大部分地方都有极高的吻合度。
塞莱拉公司测定的序列覆盖了95%以上的人类基因组,其中约85%的人类基因组存在于按照正确顺序排列、至少包含50万个碱基对的片段中。这一序列为人类至少拥有2.6383万个控制合成蛋白质的基因提供了有力的证据,也为另外1.2731万个假设基因的存在提供了较弱的证据

问题四:全基因组和全外显子组测序的区别 基于第二代高通量测序技术,对于有参考序列的物种,针对不同的真菌菌株,可通过全基因组重测序的方法获得全基因组范围内完整的变异信息,讨论群体的遗传结构、影响群体遗传平衡的因素以及物种形成的机制,定位重要性状位点,为后续分子育种打下坚实基础。同时,通过全基因组大样本重测序对真菌重要菌株进行全基因组的基因型鉴定,并与关注的表型数据进行全基因组关联分析(GWAS),找出与关注表型相关的SNP位点,定位性状相关基因。随着测序成本降低和拥有参考基因组序列的物种增多,基因组重测序也成为育种研究中迅速有效的方法之一,在全基因组水平扫描并检测出与重要性状相关的变异位点,具有重大的科研价值和产业价值。
近日,Nature Genetics发表的一篇文章就充分利用了微生物基因组测序与以全基因组重测序为基础的全基因组关联分析结合的方法,揭示了裂殖酵母遗传与表型多样性之间的联系。研究者选取裂殖酵母Schizosaccharomyces pombe作为研究对象,在全球20个国家范围内收集了时间跨度为100年的161个野生株系的S.Pombe,进行了全基因组测序,推测裂殖酵母在公元前340年开始广泛大量出现,祖先种到达美洲的时间为公园1623年。后续研究者又选取223个菌种进行全基因组关联分析,发现至少89个性状表现出一个关联。每个性状最显着的检测到的变异可以解释平均22%的表型差异,且indel的影响比SNP更大。

问题五:全基因组测序的研究结果 ①NCI-H209细胞系基因组中,共检测到22,910个碱基替换、65个插入缺失(Indels)、58个结构变异;在基因组的编码区,除了发现RB1 和TP53基因发生点突变和MLL2基因由于发生了G>T的颠换,从而产生了pre-stop codon外,有94个点突变直接改变了氨基酸序列,有36个属同义突变。②特定的碱基及其周围序列易被烟气中的多环芳烃和丙烯醛诱变。在NCI-H209细胞系基因组中,G>T/C>A是最为普遍的颠换现象,发生频率为34%;其次是G>A/C>T(21%)和A>G/T>C(19%);CpG岛外的CpG二核苷酸多发生G>T颠换,而CpG岛内的CpG二核苷酸多发生G>C颠换,说明烟气中的致癌物偏好引起甲基化的CpG二核苷酸发生颠换。③检测到转录偶联修复(Transcription-coupled repair)和表达相关的修复(Expression-linked repair)在起作用。转录偶联修复作用机制:鸟嘌呤和腺嘌呤上大的加合物是吸烟过程中所释放的致癌化学物质引起DNA损伤的主要形式,这些大的加合物阻止了转录链上RNA聚合酶的转录过程,而转录受阻的RNA聚合酶招募核苷酸剪切修复相关因子对受损的核苷酸进行修复以避免突变发生。在TP53基因突变的肺癌细胞中,G>T颠换常出现在非转录链,表明在转录链上相同的损伤已被识别和修复。在本研究中,转录链上G和A碱基替换频率比非转录链上少,由此看来嘌呤是烟气致癌物质主要诱变靶标。另外,在NCI-H209细胞系中,转录链和非转录链上发生不同类型的突变(G>T、A>G、A>T)两条链基因表达水平也有差异,这就意味着转录偶联修复机制识别、修复不同加合物损伤的能力不同。表达相关的修复(Expression-linked repair)作用机制:这是一种新的、更为普遍的修复机制,即,高表达的基因中,转录链及非转录链的突变频率都较低。在NCI-H209细胞系中,转录链和非转录链上发生G>A的突变,两条链上基因表达水平都很高,这就说明表达相关的修复作用比转录偶联修复作用更为重要。④在SCLC细胞系中,CHD7基因发生了重排。在NCI-H209细胞系中,CHD7基因3~8外显子发生连续重复,而另外2个LU-135、NCI-H2171细胞系则携带PVT1-CHD7融合基因,说明在肺癌中CHD7基因发生了周期性重排。以上结果表明,第二代测序技术已成为研究与癌症相关的基因突变过程、细胞损伤修复路径、基因调控网络的强有力工具。

问题六:第二代测序技术能测基因组全长吗 第二代测序技术能测基因组全长
测序文库的构建(Library Construction)
首先准备基因组(虽然测序公司要求样品量要达到200ng,但是Gnome Analyzer系统所需的样品量可低至100ng,能应用在很多样品有限的实验中),然后将DNA随机片段化成几百碱基或更短的小片段,并在两头加上特定的接头(Adaptor)。如果是转录组测序,则文库的构建要相对麻烦些,RNA片段化之后需反转成cDNA,然后加上接头,或者先将RNA反转成cDNA,然后再片段化并加上接头。片段的大小(Insert size)对于后面的数据分析有影响,可根据需要来选择。对于基因组测序来说,通常会选择几种不同的insert size,以便在组装(Assembly)的时候获得更多的信息。

⑵ R 数据可视化 —— circlize 基因组绘图函数

创建基因组数据的绘图区域的函数是 circos.genomicTrack() ,或者 circos.genomicTrackPlotRegions() 。

其实用方式类似于 circos.track() 函数,可以使用 panel.fun 添加自定义的绘图函数

在 panel.fun 函数中,可以基础图形函数来添加图形,函数接收两个参数 region 和 value :

其中 region 的数据用于标识 x 轴, value 标识的是 y 轴。

panel.fun 函数还强制要求传入第三个参数 ... ,用于传递用户不可见的变量,并交由其内部卖仿橡的基础绘图函数进行解析,如 circos.genomicPoints

例如,我们创建包含两列额外值的数据

我们可以在 panel.fun 函数中,将 region 和 value 打印出来

可以看到, region 为数据的 2 、 3 两列, value 为 4 、 5 两列大枝

numeric.column 参数用于指定 y 轴数据,可以传递对应的列名或列索引,默认中旁为所有数值列(从第四列开始),这些数据拥有相同的 x 轴坐标,可以使用 ylim 来设置数据范围,例如

如果输入数据是数据框列表,则 numeric.column 为长度与列表一致的向量或一个标量

circos.genomicPoints() 用于绘制点图,是使用 circos.points() 函数来实现的

如果你不想使用 circos.genomic*() 类型的函数,可以使用 circos.*() 来实现。

使用方式包括

其他基因组数据绘图函数也是使用对应的 circos.*() 来实现的

因为矩形框的左右边界由 x 轴固定了,只需要设置上下边界即可,参数可以是 ytop , ybottom 或 ytop.column 、 ybottom.column 指定对应的数据列

需要两个数据框来确定连接区域,其他参数都由 circos.link() 解析,例如

circos.genomicTrack() 函数和 panel.fu n 参数对不同的输入数据或不同的模式,会有不同的表现形式

如果输入数据是数据框,绘制方式与前面一样

对于数据框列表的输入数据, panel.fun 将按照当前染色体的各不同数据框进行绘制, region 和 value 表示的是当前染色体,当前数据框所对应的值。

需要在 panel.fun 函数内部使用 getI(...) 来获取当前数据框的索引。例如

在 circos.genomicTrack() 函数中设置 stack = TRUE ,开启堆叠模式。

在堆叠模式下, ylim 将会被重新定义, y 轴将会被分割为一些高度相同的 bin ( y = 1, 2, ... ),每个 bin 内放置对应的图形

如果在堆叠模式下输入数据是包含多列数值列的数据框,则 numeric.column 所指定的每个数值列都会作为一个单元, ylim 被设置为 (0.5,0.5+n) , n 为数值列的数目。 y 轴的值 value 将会被替换为 y=i

例如

如果输入的是数据框列表,则每个数据框被认为是一个单元, ylim 被重定义为 (0.5,0.5+n) , n 为数据框列表的长度。

panel.fun 将会应用在每个数据框中,

为了更容易看出图形的区别,我们只显示一条染色体,并将其绘制成 1/4 圆

添加轨迹 A ,只绘制点

添加轨迹 B ,将点以 stack 模式排列,并添加一条虚线

添加轨迹 C ,使用数据框列表,两个数据框的点设置不同的颜色

添加轨迹 D ,为数据框列表使用堆积的方式

添加轨迹 E ,数据框包含 4 列数值数据,每列数据拥有相同的 x 轴坐标,并设置不同的颜色

添加轨迹 F ,堆叠方式显示 4 列数据

类似于上面的点图,我们也只用 1/4 圆来绘制 chr1

轨迹 A ,绘制简单折线,折线的点为区间中点

轨迹 B ,面积折线图,轨迹 C 为 h 类型

轨迹 D ,用数据框列表绘制分组折线图,每组为一个数据框

轨迹 E ,使用堆叠的方式绘制数据框列表

轨迹 F ,包含 4 列的数据框,绘制分组折线图,每组表示一列

轨迹 G ,堆叠的数据框

轨迹 H ,绘制 segment 类型的线

由于矩阵的颜色表示的值大小,我们定义连续型颜色映射

如果要绘制热图,可以设置 stack 模式

在轨迹 B 中,使用数据框列表的堆叠模式

在轨迹 C 中,我们使用正常的模式实现类似的功能

轨迹 D ,我们可以设置条形的高度, ytop.column = 1 表示 value 的第一列

⑶ 易基因|全基因组DNA甲基化测序分析全流程

全基因组DNA甲基化实验怎么做?从技术原理、建库测序流程、信息分析流程和研究套路等四方面详细介绍。

表观修饰不需要改变 DNA 序列便能实现对性状的改变,表观修饰的改变与基因功能乃至细胞状态段烂陆、发育、衰老、疾病等存在重要的关联。在众多的表观遗传修饰中,最为重要且研究最为广泛的修饰之一是 DNA 甲基化,而全基因组甲基化测序(WGBS-seq)无疑是最有效的研究手段。

全基因组甲基化测序利用重亚硫酸盐能够将未甲基化的胞嘧啶(C)转化为胸腺嘧啶 (T)的特性,将基因组用重亚硫酸盐处理后测序,即可根据单个 C 位点上未转化为 C 未转化为 T 的 reads 数目与所有覆盖的 reads 数目的比例,计算得到甲基化率。该技术对于全面研究胚胎发育、衰老机制、疾病发生发展的表观遗传机制,以及筛选疾病相关的表观遗传学标记位点具有重要的应用价值。

全基因组甲基化测序原理示意图入下:

样品检测——样品打断 ——文库构建——BS处理——文库质检

(一)样品检测

对DNA样品的检测主要包括2种方法:

(1)琼脂糖凝胶电泳分析DNA降解程度以及是否有污染,检测具有明显的主带,且条带清晰;

Qubit 2.0对DNA浓度进行精确定量,DNA检测总量不低于1ug。

(二)文库构建

样本检测合格后,使用Bioruptor系统将1µg样品基因组DNA与未甲基化的lambda DNA混合,然后将其片段化,平均大小约为250bp。片段化后,纯化的随机片段化DNA随后用T4 DNA聚合酶,Klenow片段和T4多核苷酸激酶的混合物进行修复,钝化和磷酸化末端。随后使用Klenow片段(3'-5'exo-)对钝的DNA片段进行3'腺苷酸化,然后与连接5'-甲基胞嘧啶而不是使用T4 DNA连接酶的胞嘧啶连接的衔接子进行连接。完成每个步骤后,使用磁珠纯化DNA。之后,根据说明使用ZYMO EZ DNA甲基化金试剂盒将未甲基化的胞嘧啶转化为尿嘧啶。最后,用JumpStart Taq DNA聚合酶进行PCR扩增,再使用磁珠对PCR产物进行纯化获得最终文库。

(三)文库质检

文库构建完成后,先使用Qubit2.0进行初步定量,稀释文库至1ng/ul,随后使用Agilent 2100对文库的insert size进行检测,insert size符合预期后,使用qPCR方握顷法对文库的有效浓度进行准确定量(文库有效浓度> 2nM),以保证文库质量。

(四)上机测序

文库检测合格后,把不同文库按照有效浓度及目标下机数据量的需求pooling后在illumina Nova平台测序,测序策略为PE150。

(一)原始下机数据质控

原始下机数据为FASTQ格式,是高通量测序的标准格式。FASTQ文件每四行为一个单位,包含一条测序序列(read)的信息。该单位第一行为read的历逗ID,一般以@符号开头;第二行为测序的序列,也就是reads的序列;第三行一般是一个+号,或者与第一行的信息相同;第四行是碱基质量值,是对第二行序列的碱基的准确性的描述,一个碱基会对应一个碱基质量值,所以这一行和第二行的长度相同。以下为一条read信息的示例:

原始下机数据包含建库时引进的接头序列以及质量过低的碱基,这些因素会导致后续比对到基因组的reads较少,从而导致得到的信息较少,因此需要进行过滤。利用trim_galore软件对原始数据进行去除接头序列及低质量碱基等质控步骤。

(二)序列比对

经过质控的reads需要根据与参考基因组的序列相似度比对到参考基因组上。相比于常规基因组及转录组测序,WGBS测序方法产生的数据的特点决定其在比对时存在三大困难:

(1)DNA片段正链和负链经过重亚硫酸盐转化后将不再反向互补,再经过PCR,便会产生四条不同的序列,这将大大增加比对时的计算量。

(2)经过重亚硫酸盐转化后,DNA序列大部分C碱基被转化成T碱基,因此序列含大量T而缺乏C;经过PCR后,产生的互补链则含有大量A而缺乏G。这样便导致序列的复杂度降低(即序列的组成特征更单一),从而增加比对的难度。

(3)C和T的比对是不对称的。经过重亚硫酸盐转化后,序列中非甲基化的C碱基(占大部分)被转化为T,这将导致测序序列与参考基因组不匹配,T既可能应该比对到T上,有可能应该比对到C上;而C则只能比对到C上。这也增加了比对的难度。

利用BSMAP软件进行比对。BSMAP进行比对时,先以参考基因组上C碱基的位置作为指导,将reads中对应参考基因组C碱基位置的T标记为C,其他T保持不变,从而使reads可以直接比对到参考基因组。

(三)甲基化水平计算

甲基化水平可根据未转化为 T 的 C 与转化为 T 的 C 的 reads 的比例计算得到,即:

Beta-value = C-reads / (C-reads + T-reads) * 100%

其中,Beta-value 即为该胞嘧啶的甲基化水平,C-reads 为覆盖该位点的支持甲基化的reads 数目(测得该位点为 C 的 reads),T-reads 为覆盖该位点的不支持甲基化的 reads 数目(测得该位点为 T 的 reads)。 计算原理示意图如下:

利用BSMAP统计甲基化水平。

(四)差异甲基化区域(DMR)鉴定及统计

DMR检测使用权威期刊发表的metilene软件。该软件先将基因组进行预分段,以排除较长序列中不包含CG位点的片段。随后,利用二元分隔算法,递归缩小检测范围,以搜索得到组间累积平均甲基化差异最大的区域,作为可能的DMR;最后,结合双重统计学检验(MWU-test和2D KS-test),得到准确的DMR。检测原理如下图所示:

本分析检测DMR的标准如下:

(1)区域平均甲基化差异不小于0.1;

(2)CpG位点数不少于5个;

(3)区域长度不小于50 bp;

(4)甲基化水平差异统计检验的校正P值小于0.05;

(5)2D KS-test检验P值小于0.05。

(五)信息分析流程示意图

DNA甲基化组学研究的核心内容在于对DNA甲基化数据的挖掘。DNA甲基化一般遵循三个步骤进行数据挖掘。

首先,进行整体全基因组甲基化变化的分析,包括平均甲基化水平变化、甲基化水平分布变化、降维分析、聚类分析、相关性分析等。

其次,进行甲基化差异水平分析,筛选具体差异基因,包括DMC/DMR/DMG鉴定、DMC/DMR在基因组元件上的分布、DMC/DMR的TF结合分析、时序甲基化数据的分析策略、DMG的功能分析等。

最后,将甲基化组学&转录组学关联分析,包括Meta genes整体关联、DMG-DEG对应关联、网络关联等。

Whole-Genome Bisulfite Sequencing of Two Distinct Interconvertible DNA Methylomes of Mouse Embryonic Stem Cells. 两种状态的小鼠胚胎干细胞的甲基化组学研究

1、背景

小鼠胚胎干细胞一般生长在含有血清的基质中,被称作血清干细胞(serum ESCs);加两种激酶抑制因子使胚胎干细胞在无血清的情况下更能保持多能性的基态,这种干细胞称为2i干细胞(2i ESCs);这两种状态的胚胎干细胞可以互相转化。以前这方面的甲基化研究大多基于质谱,覆盖度和研究结果有限,尚缺乏2i胚胎干细胞的甲基化组学研究。

2、方法

利用全基因组重亚硫酸盐甲基化测序(WGBS),对这两种可互相转换的小鼠胚胎干细胞进行甲基化组学研究

3、结论

全面准确的检测了两种小鼠胚胎干细胞的DNA甲基化修饰并进行了系统的比较;同serum ESCs相比,雄性2iESCs全局低甲基化;在血清中,雌性ESCs跟雄性2i ESCs类似呈现全局低甲基化,而在2i ESCs状态下,甲基化水平会进一步降低。

以上就是关于全基因组甲基化测序实验流程和分析思路的介绍。

参考文献:

[1] Ashburner, M. and C. A. Ball, et al. Gene ontology: tool for the unification of biology. The Gene Ontology Consortium. Nat Genet, 2000, 25 (1): 25-9.

[2] Dirk Schübeler. Function and information content of DNA methylation. Nature, 2015, 517: 321–326.

[3] Frank Jühling et al. metilene: Fast and sensitive calling of differentially methylated regions from bisulfite sequencing data. Genome Research, 2016, 26: 256-262.

[4] Kanehisa M, Goto S. KEGG: kyoto encyclopedia of genes and genomes. Nucleic acids research, 2000,28(1): 27-30.

[5] Tadafumi Kato Kazuya Iwamoto. Comprehensive DNA methylation and hydroxymethylation analysis in the human brain and its implication in mental disorders. Neuropharmacology, 2014, 80: 133-139.

[6] Xiaojing Yang et al. Gene Body Methylation Can Alter Gene Expression and Is a Therapeutic Target in Cancer. Cancer Cell 26, 577–590.

[7] Yuanxin Xi et al. BSMAP: whole genome bisulfite sequence MAPping program. BMC Bioinformatics, 2009, 10:232.

[8] Gao F, et al. De novo DNA methylation ring monkey pre-implantation embryogenesis. Cell Res. 2017 Apr;27(4):526-539. pii: cr201725.

⑷ 老鼠全基因组测序一般覆盖度有多少

基因组测序的测肆携码序深度一般是10X。测序深度是指测序得到的总碱基数与待测基因组大小的比值。假设一个基裂哪因大小为隐宽2M,测序深度为10X,那么获得的总数据量为20M。基因测序是一种新型基因检测技术,能够从血液或唾液中分析测定基因全序列,预测罹患多种疾病的可能性,个体的行为特征及行为合理,如癌症或白血病,运动天赋,酒量等。

⑸ 全基因组测序的测序指标

测序覆盖度:基因组腊段闹被测序得到的碱基覆盖的比例;测序覆盖度是反映测序随机性的指标之一;测序序深度与覆盖燃李度之间的关系可以过Lander-Waterman Model(1988)来轮罩确定。当深度达到5X时,则可覆盖基因组的约99.4%以上。

⑹ PCAWG | 泛癌全基因组分析

发表期刊:Nature 

发表日期:2020.02

影响因子:42.778

癌症是全球第二大常见死因,每年超过800万人因癌症丧命。预计在未来十年,癌症发生率将增加50%以上。癌症是体细胞亚克隆自主发展和扩散类疾病的总称。癌症克隆控制多个细胞通路,打破正常细胞的生长和调控等限制,获取自主发展和扩散的特征。单个细胞通路改变不足以引发癌症。每个癌症由潜在的致病异常“池”中的多个异常通路组合而引发。

肿瘤异质性来自于达尔文进化的随机性。达尔文进化的三个先决条件:(1)群体中的特征是变化的;(2)变异从亲本遗传到子代;(3)群体为了生存进行竞争。一部分突变改变细胞表型,一部分突变使克隆获取逃逸正常生理控制的优势。提供选择优势的突变称为驱动突变,反之称为乘客突变。

选用2834个患者人全基因组测序数据(WGS),去除176个患者低质量数据,共计2658个患者的WGS数据,其中有2583个患者高质量数据。2658个患者共取2605个原发肿瘤和173个转移或复发肿瘤,正或谈常样本平均测序深度为39×,肿瘤测序深度分别为38×和60×。研究群体包括1469男性(55%)和1189女性(45%),平均年龄56岁,覆盖38种肿瘤类型。其中,1222个患者具有RNA-seq数据。

利用以上数据分析somatic SNVs, somatic Indels, somatic CNVs, somatic SVs,体细胞逆转录事件,线粒体DNA突变、端粒长度以及germline SNV, Indel, SVs等事件。

利用3个核心变异检测流程和额外10个变异检测流程,对63对tumor-normal变异检测,估测3个核心流程的敏感度和精确度。并对其中50对进行高深度靶向测序验证。3个核心流程检测到真实变异的敏感度为80~90%,每个流程检测的95%以上变异是真实的somatic mutations。针对Indel检测,3个核心流程的敏感度是40~50%,精确度是70~95%。SV检测算法的精确度在80~95%。

对3个核心流程的变异结果合并,评估合并集合中突变的属性:Somatic SNVs敏感度为95%(90%置信区间,88~98%),精厅团辩确度为95%(90%置信区间,71~99%)。Somatic Indels 检测敏感度为60%(34~72%)和精确度91%(73~96%)。合并的Somatic SVs 敏感度为90%,精确度为97.5%。多种方法检测变异提高了低频突变检出的准确性。

分析2583个患者数据,共检测到43,778,859个somatic SNVs,410,123个somatic 多核酸突变,2,418,247个somatic Indels,288,416个somatic SVs,19,166 体细胞逆转录事件,8,185个新线粒体突变。通过相关性分析,发现诊断年龄和体细胞突变数量相关:年龄每增长一年,增加约190个SNVs,约22个Indels。

3.1癌症驱动突变全景图

根据突变的性质和已知扮缺癌症相关基因,预测肿瘤的驱动基因;利用已知的启动子和增强子分析非编码驱动突变。结果发现,91%的肿瘤至少有1个驱动突变,每个肿瘤平均有4.6个驱动突变(癌种之间变化较大)。对于编码区点突变,每个肿瘤平均有2.6个驱动突变。除此之外, 13%(785/5913)的驱动点突变是非编码突变,而且1/3(237/785)突变发生在 TERT 启动子上;25%肿瘤具有非编码驱动突变。说明:非编码区驱动点突变频率较编码区低;与 TERT 启动子相比,其他启动子和增强子并不常发生驱动突变。

根据肿瘤类型,SVs和点突变致力于不同的癌症发生机制。驱动SVs常发生在乳腺癌和卵巢腺癌;驱动点突变常出现在在结肠腺癌和成熟B细胞淋巴瘤。

文章发现抑癌基因的驱动突变多为二次打击事件。例如,954个肿瘤具有 TP53 突变,736(77%)个肿瘤样本的两个等位基因均发生突变,其中96%(707/736)是等位基因突变和等位基因缺失同时发生。17%的病人在癌症相关基因上具有稀少的胚系蛋白截断体突变,5.4%病人由于somatic mutations导致以上基因次等位基因失活。

3.2没有驱动突变的PCAWG肿瘤数据分析

90%以上的PCAWG样本鉴定到驱动突变,仍有181个样本未检测到驱动突变。分析肿瘤样本未找到驱动突变的原因,有以下几点:(1)样本质量低:4/181个样本的正常对照被肿瘤DNA污染,每个对照含有超过5%的肿瘤DNA;同理,肿瘤样本中肿瘤细胞含量较低也会影响突变检出;(2)驱动突变位点覆盖度较低无法满足突变检出:6个肝细胞癌和2个胆管癌在高深度靶向测序后检测到 TERT 突变;(3)生信分析方法:35个骨髓增生性肿瘤未检测到 JAK2 V617F 突变,由于利用Panels of normals作为对照去除测序影响导致。2~5%的健康人群具有造血克隆,可能涵盖了驱动突变;(4)驱动基因检测力不足,说明某些肿瘤中存在未被发现的基因富集;(5)染色体变异:19/43肾细胞癌和18/81前列腺癌缺少驱动突变,但发生染色体异常,有可能单凭染色体扩增或缺失足以引发癌症。

3.3成簇突变和SVs模式

癌症中,单个灾难性事件可产生多个聚集性突变,导致基因组大量重组。主要包含:(1)染色体重排:不同染色体的DNA双链断裂修复导致重排发生;(2)Kataegis(雷雨):单链DNA局部超突变,导致聚集性核苷酸替换;(3)染色体碎裂:数十数百个DNA断裂同时发生在一个或者几个染色体,产生的碎片随机组合在一起。

467个样本(17.8%)发生染色体重排和平衡易位,主要发生在前列腺癌、淋巴系统恶性肿瘤和甲状腺癌。重排事件导致甲状腺癌的部分融合基因的产生,例如 RET 、 NTRK3 和 IGF2BP3 等等。

60.5%癌症中发生Kataegis事件,例如肺鳞癌、膀胱癌、肢端黑色素瘤和肉瘤等。Kataegis主要包含(1)由APOBEC活性导致TpC的C>N 突变;(2)聚合酶导致 T pT或Cp T 的T > N突变。81.7%的Kataegis事件与 APOBEC3B 表达水平相关,5.7%与易错聚合酶相关,以及2.3%事件是GpC 或 CpC的胞嘧啶脱氨导致的。Kataegis事件与SV断点相关,尤其是缺失和复杂重排事件,包括在缺失附近10-25kb内Cp T pT的T>N 突变。

Kataegis事件包含4种局部超突变类型:(1)脱靶体细胞超突变和局部Cp T pT的T>N 突变;(2)与复杂重排相关的APOBEC;(3)后随链和早期复制区域的APOBEC;(4)后两种类型混合。

587(22.3%)个染色体碎裂样本,主要为肉瘤、脑胶质瘤、肺鳞癌、黑色素瘤和乳腺癌样本。染色体碎裂伴随全基因组重复,相关的驱动基因为 TP53 。肉瘤和B细胞淋巴瘤患者中,女性发生染色体碎裂的频率高于男性;前列腺患者中,晚期患者具有更高频率的染色体碎裂。染色体碎裂区域包含3.6%驱动基因和7%拷贝数驱动。

3.4进化中时间聚集性突变

根据分子时钟分析每个肿瘤的进化史:主克隆发生在早期,亚克隆突变发生在后期;拷贝数扩增区域,分子时间根据突变发生在拷贝之前或者之后进行划分。染色体碎裂通常发生在主克隆,特别是在脂肪肉瘤、前列腺癌和肺鳞癌说明是癌症进化早期事件。在黑色素瘤中,染色体碎裂扩增涉及到较多的癌症相关基因,例如 CCND1 ,  TERT ,  CDKN2A ,  TP53 和 MYC 。

在扩增的染色体碎裂事件中,利用SNV的拷贝数目计算扩增发生的时间,SNV发生在扩增之前,将会有很高比例的reads携带SNVs。相反,SNV发生在拷贝数变异之后,将只有一条染色体携带SNV,具有较低的变异频率。肢端黑色素瘤的 CCND1 扩增区域具有较少的高频突变,而皮肤黑色素瘤更多突变发生在扩增之前。

3.5胚系突变对somatic mutations的影响

根据检测到的胚系突变分析胚系突变对体细胞突变率和模式的影响作用。利用欧洲群体中MAF>5%的胚系突变位点进行GWAS分析,发现 APOBEC3B 突变机制可以利用22q13.1预测,信号最强位点是rs12628403。该位点标记了常见的30kb胚系 APOBE3B 编码序列缺失和 APOBEC3B 的3’非翻译区域 APOBE3A 编码序列融合。除此,文章在22q13.1位置发现一个新的突变位点rs2142833,并验证其与 APOBEC3B 突变相关性。rs12628403和 rs2142833在欧洲群体中是独立遗传的,rs2142833是 APOBEC3B 的eQTL。

利用稀有突变(MAF<0.5%)分析欧洲群体中胚系蛋白截短体(PTVs)和体细胞DNA重排相关性。胚系BRCA2和BRCA1蛋白截短体和小于10kb的体细胞缺失和串联重复负荷相关。BRCA1蛋白截短体和模板插入具有显着相关。20/21个BRCA1相关肿瘤出现模板插入表型,且胚系突变和体细胞突变均发生在该基因上。说明 BRCA1 基因的次等位基因失活驱动模板插入SV表型。

稀有突变关联分析发现胚系MBD4蛋白截短体突变增加CpG位置的体细胞C>T突变。 MBD4 编码DNA修复基因,移除甲基化CpG上的T:G错配的胸腺嘧啶。

评估LINE调控体细胞反转座子事件,验证114个胚系LINE对体细胞反转座激活能力,包含70个人类基因组相关插入和53个连锁不平衡SNP。16个L1元件介导67%(2440/3669)的转座事件,以两种形式进行体细胞激活,称为Strombolian和Plinian;Strombolian在人群中分布频率较高,引发中小规模的体细胞L1激活;Plinian在群体中频率很低,引发严重的体细胞L1激活。

3.6复制的永生

癌症特征之一是逃避细胞衰老,保持端粒长度是癌症永久复制的因素之一。16%的肿瘤在 ATRX ,  DAXX 和 TERT 基因上发生突变。聚类端粒序列的12个特征得到4个肿瘤亚型,说明 ALT 和 TERT 介导的端粒变异的不同。

体细胞驱动突变在四个亚型中分布不同。C1主要富集 RB1 突变和影响 ATRX 的SV,C2主要富集 ATRX 和 DAXX 的体细胞点突变,C3样本主要发生 TERT 启动子突变。 RB 基因缺失与端粒延长相关。高频发生端粒异常机制的肿瘤主要由于组织中低复制活性。

总结

利用泛癌全基因组测序数据对驱动突变、结构变异、克隆进化以及转座子事件和端粒模式进行详细分析,绘制泛癌基因组特征和阐明引发癌症的多样性因素。

参考文献

ICGC/TCGA Pan-Cancer Analysis of Whole Genomes Consortium. Pan-cancer analysis of whole genomes. Nature. 2020, 578(7793): 82-93.

原文链接:https://www.nature.com/articles/s41586-020-1969-6