當前位置:首頁 » 網頁前端 » 全基因組覆蓋度折線圖腳本
擴展閱讀
webinf下怎麼引入js 2023-08-31 21:54:13
堡壘機怎麼打開web 2023-08-31 21:54:11

全基因組覆蓋度折線圖腳本

發布時間: 2023-05-09 19:55:40

⑴ 全基因組測序技術

問題一:全基因組測序的技術路線 提取基因組DNA,然後隨機打斷,電泳回收所需長度的DNA片段(0.2~5Kb),加上接頭, 進行基因簇cluster制備或電子擴增E-PCR,最後利用Paired-End(Solexa)或者Mate-Pair(SOLiD)的方法對插入片段進行測序。然後對測得的序列組裝成Contig,通過Paired-End的距離可進一步組裝成Scaffold,進而可組裝成染色體等。組裝效果與測序深度與覆蓋度、測序質量等有關。常用的組裝有:SOAPdenovo、Trimity、Abyss等。

問題二:全基因組重測序的技術路線 提取基因組DNA,利用Covaris進行隨機打斷,電泳回收所需長度的DNA片段(0.2~5Kb),加上接頭, 進行cluster制備 (Solexa)或E-PCR (SOLiD),最後利用Paired-End(Solexa)或者Mate-Pair(SOLiD)的方法對插入片段進行重測序。圖1-1,以SOLiD為例,說明整個實驗方案。雙末端(Paired-End)測序原理測序深度(Sequencing Depth):測序得到的鹼基總量(bp)與基因組大小(Genome)的比值,它是評價測序量的指標之一。測序深度與基因組覆蓋度之間是一個正相關的關系,測序帶來的錯誤率或假陽性結果會隨著測序深度的提升而下降。重測序的個體,如果採用的是Paired-End或Mate-Pair方案,當測序深度在10~15X以上時,基因組覆蓋度塌辯和測序錯誤率控制均得以保證。測序深度對基因組覆蓋度和測序錯誤率的影響(HOM:純合體 HET:雜合體)

問題三:什麼是基因組測序技術 自1998年美國塞萊拉團首缺遺傳公司組建以來,人類基因組研究開始由兩部分科學家同時展開,分別是由公共經費支持的人類基因組工程和美國塞萊拉遺傳公司。在研究過程中,他們也分別採用了兩種不同的測序和分析的方法。塞萊拉公司的核心分析方法被稱為霰彈法,人類基因組工程則採用了克隆法。
所謂霰彈法,其實是一種高度計算機化的方法,它先把基因組隨機分成已知長度(2000個鹼基對、1萬個鹼基對、5萬個鹼基對)的片段,然後用數學演算法將這些片段組裝成毗鄰的大段並確定它們在基因組上的正確位置。
塞萊拉公司的科學家先用霰彈法測序DNA,並將整個基因組覆蓋8次,然後用兩個數學公式將人類基因組序列多次組裝起來,確定出基因中的轉錄單元,預測出60%的已識別基因的分子功能。最後研究人員將人類基因組信息與此前已完成的果蠅和線蟲的基因組序列進行比較,從而找出了三者共有的核心功能。芹粗
而人類基因組工程採用的克隆法則通過先復制更大段的人類基因序列,然後將它們繪制到基因組的適當區域進行研究。這種方法需要研究人員在早期把較多的時間和精力放到克隆和繪制草圖上。
兩個研究組將所得數據進行對比,經人類基因組工程的科學家、《科學》和《自然》雜志高級指導編輯評估,表明塞萊拉公司的基因組分析與人類基因組工程的分析結果雖然存在一些差異,但大部分地方都有極高的吻合度。
塞萊拉公司測定的序列覆蓋了95%以上的人類基因組,其中約85%的人類基因組存在於按照正確順序排列、至少包含50萬個鹼基對的片段中。這一序列為人類至少擁有2.6383萬個控制合成蛋白質的基因提供了有力的證據,也為另外1.2731萬個假設基因的存在提供了較弱的證據

問題四:全基因組和全外顯子組測序的區別 基於第二代高通量測序技術,對於有參考序列的物種,針對不同的真菌菌株,可通過全基因組重測序的方法獲得全基因組范圍內完整的變異信息,討論群體的遺傳結構、影響群體遺傳平衡的因素以及物種形成的機制,定位重要性狀位點,為後續分子育種打下堅實基礎。同時,通過全基因組大樣本重測序對真菌重要菌株進行全基因組的基因型鑒定,並與關注的表型數據進行全基因組關聯分析(GWAS),找出與關注表型相關的SNP位點,定位性狀相關基因。隨著測序成本降低和擁有參考基因組序列的物種增多,基因組重測序也成為育種研究中迅速有效的方法之一,在全基因組水平掃描並檢測出與重要性狀相關的變異位點,具有重大的科研價值和產業價值。
近日,Nature Genetics發表的一篇文章就充分利用了微生物基因組測序與以全基因組重測序為基礎的全基因組關聯分析結合的方法,揭示了裂殖酵母遺傳與表型多樣性之間的聯系。研究者選取裂殖酵母Schizosaccharomyces pombe作為研究對象,在全球20個國家范圍內收集了時間跨度為100年的161個野生株系的S.Pombe,進行了全基因組測序,推測裂殖酵母在公元前340年開始廣泛大量出現,祖先種到達美洲的時間為公園1623年。後續研究者又選取223個菌種進行全基因組關聯分析,發現至少89個性狀表現出一個關聯。每個性狀最顯著的檢測到的變異可以解釋平均22%的表型差異,且indel的影響比SNP更大。

問題五:全基因組測序的研究結果 ①NCI-H209細胞系基因組中,共檢測到22,910個鹼基替換、65個插入缺失(Indels)、58個結構變異;在基因組的編碼區,除了發現RB1 和TP53基因發生點突變和MLL2基因由於發生了G>T的顛換,從而產生了pre-stop codon外,有94個點突變直接改變了氨基酸序列,有36個屬同義突變。②特定的鹼基及其周圍序列易被煙氣中的多環芳烴和丙烯醛誘變。在NCI-H209細胞系基因組中,G>T/C>A是最為普遍的顛換現象,發生頻率為34%;其次是G>A/C>T(21%)和A>G/T>C(19%);CpG島外的CpG二核苷酸多發生G>T顛換,而CpG島內的CpG二核苷酸多發生G>C顛換,說明煙氣中的致癌物偏好引起甲基化的CpG二核苷酸發生顛換。③檢測到轉錄偶聯修復(Transcription-coupled repair)和表達相關的修復(Expression-linked repair)在起作用。轉錄偶聯修復作用機制:鳥嘌呤和腺嘌呤上大的加合物是吸煙過程中所釋放的致癌化學物質引起DNA損傷的主要形式,這些大的加合物阻止了轉錄鏈上RNA聚合酶的轉錄過程,而轉錄受阻的RNA聚合酶招募核苷酸剪切修復相關因子對受損的核苷酸進行修復以避免突變發生。在TP53基因突變的肺癌細胞中,G>T顛換常出現在非轉錄鏈,表明在轉錄鏈上相同的損傷已被識別和修復。在本研究中,轉錄鏈上G和A鹼基替換頻率比非轉錄鏈上少,由此看來嘌呤是煙氣致癌物質主要誘變靶標。另外,在NCI-H209細胞系中,轉錄鏈和非轉錄鏈上發生不同類型的突變(G>T、A>G、A>T)兩條鏈基因表達水平也有差異,這就意味著轉錄偶聯修復機制識別、修復不同加合物損傷的能力不同。表達相關的修復(Expression-linked repair)作用機制:這是一種新的、更為普遍的修復機制,即,高表達的基因中,轉錄鏈及非轉錄鏈的突變頻率都較低。在NCI-H209細胞系中,轉錄鏈和非轉錄鏈上發生G>A的突變,兩條鏈上基因表達水平都很高,這就說明表達相關的修復作用比轉錄偶聯修復作用更為重要。④在SCLC細胞系中,CHD7基因發生了重排。在NCI-H209細胞系中,CHD7基因3~8外顯子發生連續重復,而另外2個LU-135、NCI-H2171細胞系則攜帶PVT1-CHD7融合基因,說明在肺癌中CHD7基因發生了周期性重排。以上結果表明,第二代測序技術已成為研究與癌症相關的基因突變過程、細胞損傷修復路徑、基因調控網路的強有力工具。

問題六:第二代測序技術能測基因組全長嗎 第二代測序技術能測基因組全長
測序文庫的構建(Library Construction)
首先准備基因組(雖然測序公司要求樣品量要達到200ng,但是Gnome Analyzer系統所需的樣品量可低至100ng,能應用在很多樣品有限的實驗中),然後將DNA隨機片段化成幾百鹼基或更短的小片段,並在兩頭加上特定的接頭(Adaptor)。如果是轉錄組測序,則文庫的構建要相對麻煩些,RNA片段化之後需反轉成cDNA,然後加上接頭,或者先將RNA反轉成cDNA,然後再片段化並加上接頭。片段的大小(Insert size)對於後面的數據分析有影響,可根據需要來選擇。對於基因組測序來說,通常會選擇幾種不同的insert size,以便在組裝(Assembly)的時候獲得更多的信息。

⑵ R 數據可視化 —— circlize 基因組繪圖函數

創建基因組數據的繪圖區域的函數是 circos.genomicTrack() ,或者 circos.genomicTrackPlotRegions() 。

其實用方式類似於 circos.track() 函數,可以使用 panel.fun 添加自定義的繪圖函數

在 panel.fun 函數中,可以基礎圖形函數來添加圖形,函數接收兩個參數 region 和 value :

其中 region 的數據用於標識 x 軸, value 標識的是 y 軸。

panel.fun 函數還強制要求傳入第三個參數 ... ,用於傳遞用戶不可見的變數,並交由其內部賣仿橡的基礎繪圖函數進行解析,如 circos.genomicPoints

例如,我們創建包含兩列額外值的數據

我們可以在 panel.fun 函數中,將 region 和 value 列印出來

可以看到, region 為數據的 2 、 3 兩列, value 為 4 、 5 兩列大枝

numeric.column 參數用於指定 y 軸數據,可以傳遞對應的列名或列索引,默認中旁為所有數值列(從第四列開始),這些數據擁有相同的 x 軸坐標,可以使用 ylim 來設置數據范圍,例如

如果輸入數據是數據框列表,則 numeric.column 為長度與列表一致的向量或一個標量

circos.genomicPoints() 用於繪制點圖,是使用 circos.points() 函數來實現的

如果你不想使用 circos.genomic*() 類型的函數,可以使用 circos.*() 來實現。

使用方式包括

其他基因組數據繪圖函數也是使用對應的 circos.*() 來實現的

因為矩形框的左右邊界由 x 軸固定了,只需要設置上下邊界即可,參數可以是 ytop , ybottom 或 ytop.column 、 ybottom.column 指定對應的數據列

需要兩個數據框來確定連接區域,其他參數都由 circos.link() 解析,例如

circos.genomicTrack() 函數和 panel.fu n 參數對不同的輸入數據或不同的模式,會有不同的表現形式

如果輸入數據是數據框,繪制方式與前面一樣

對於數據框列表的輸入數據, panel.fun 將按照當前染色體的各不同數據框進行繪制, region 和 value 表示的是當前染色體,當前數據框所對應的值。

需要在 panel.fun 函數內部使用 getI(...) 來獲取當前數據框的索引。例如

在 circos.genomicTrack() 函數中設置 stack = TRUE ,開啟堆疊模式。

在堆疊模式下, ylim 將會被重新定義, y 軸將會被分割為一些高度相同的 bin ( y = 1, 2, ... ),每個 bin 內放置對應的圖形

如果在堆疊模式下輸入數據是包含多列數值列的數據框,則 numeric.column 所指定的每個數值列都會作為一個單元, ylim 被設置為 (0.5,0.5+n) , n 為數值列的數目。 y 軸的值 value 將會被替換為 y=i

例如

如果輸入的是數據框列表,則每個數據框被認為是一個單元, ylim 被重定義為 (0.5,0.5+n) , n 為數據框列表的長度。

panel.fun 將會應用在每個數據框中,

為了更容易看出圖形的區別,我們只顯示一條染色體,並將其繪製成 1/4 圓

添加軌跡 A ,只繪制點

添加軌跡 B ,將點以 stack 模式排列,並添加一條虛線

添加軌跡 C ,使用數據框列表,兩個數據框的點設置不同的顏色

添加軌跡 D ,為數據框列表使用堆積的方式

添加軌跡 E ,數據框包含 4 列數值數據,每列數據擁有相同的 x 軸坐標,並設置不同的顏色

添加軌跡 F ,堆疊方式顯示 4 列數據

類似於上面的點圖,我們也只用 1/4 圓來繪制 chr1

軌跡 A ,繪制簡單折線,折線的點為區間中點

軌跡 B ,面積折線圖,軌跡 C 為 h 類型

軌跡 D ,用數據框列表繪制分組折線圖,每組為一個數據框

軌跡 E ,使用堆疊的方式繪制數據框列表

軌跡 F ,包含 4 列的數據框,繪制分組折線圖,每組表示一列

軌跡 G ,堆疊的數據框

軌跡 H ,繪制 segment 類型的線

由於矩陣的顏色表示的值大小,我們定義連續型顏色映射

如果要繪制熱圖,可以設置 stack 模式

在軌跡 B 中,使用數據框列表的堆疊模式

在軌跡 C 中,我們使用正常的模式實現類似的功能

軌跡 D ,我們可以設置條形的高度, ytop.column = 1 表示 value 的第一列

⑶ 易基因|全基因組DNA甲基化測序分析全流程

全基因組DNA甲基化實驗怎麼做?從技術原理、建庫測序流程、信息分析流程和研究套路等四方面詳細介紹。

表觀修飾不需要改變 DNA 序列便能實現對性狀的改變,表觀修飾的改變與基因功能乃至細胞狀態段爛陸、發育、衰老、疾病等存在重要的關聯。在眾多的表觀遺傳修飾中,最為重要且研究最為廣泛的修飾之一是 DNA 甲基化,而全基因組甲基化測序(WGBS-seq)無疑是最有效的研究手段。

全基因組甲基化測序利用重亞硫酸鹽能夠將未甲基化的胞嘧啶(C)轉化為胸腺嘧啶 (T)的特性,將基因組用重亞硫酸鹽處理後測序,即可根據單個 C 位點上未轉化為 C 未轉化為 T 的 reads 數目與所有覆蓋的 reads 數目的比例,計算得到甲基化率。該技術對於全面研究胚胎發育、衰老機制、疾病發生發展的表觀遺傳機制,以及篩選疾病相關的表觀遺傳學標記位點具有重要的應用價值。

全基因組甲基化測序原理示意圖入下:

樣品檢測——樣品打斷 ——文庫構建——BS處理——文庫質檢

(一)樣品檢測

對DNA樣品的檢測主要包括2種方法:

(1)瓊脂糖凝膠電泳分析DNA降解程度以及是否有污染,檢測具有明顯的主帶,且條帶清晰;

Qubit 2.0對DNA濃度進行精確定量,DNA檢測總量不低於1ug。

(二)文庫構建

樣本檢測合格後,使用Bioruptor系統將1µg樣品基因組DNA與未甲基化的lambda DNA混合,然後將其片段化,平均大小約為250bp。片段化後,純化的隨機片段化DNA隨後用T4 DNA聚合酶,Klenow片段和T4多核苷酸激酶的混合物進行修復,鈍化和磷酸化末端。隨後使用Klenow片段(3'-5'exo-)對鈍的DNA片段進行3'腺苷酸化,然後與連接5'-甲基胞嘧啶而不是使用T4 DNA連接酶的胞嘧啶連接的銜接子進行連接。完成每個步驟後,使用磁珠純化DNA。之後,根據說明使用ZYMO EZ DNA甲基化金試劑盒將未甲基化的胞嘧啶轉化為尿嘧啶。最後,用JumpStart Taq DNA聚合酶進行PCR擴增,再使用磁珠對PCR產物進行純化獲得最終文庫。

(三)文庫質檢

文庫構建完成後,先使用Qubit2.0進行初步定量,稀釋文庫至1ng/ul,隨後使用Agilent 2100對文庫的insert size進行檢測,insert size符合預期後,使用qPCR方握頃法對文庫的有效濃度進行准確定量(文庫有效濃度> 2nM),以保證文庫質量。

(四)上機測序

文庫檢測合格後,把不同文庫按照有效濃度及目標下機數據量的需求pooling後在illumina Nova平台測序,測序策略為PE150。

(一)原始下機數據質控

原始下機數據為FASTQ格式,是高通量測序的標准格式。FASTQ文件每四行為一個單位,包含一條測序序列(read)的信息。該單位第一行為read的歷逗ID,一般以@符號開頭;第二行為測序的序列,也就是reads的序列;第三行一般是一個+號,或者與第一行的信息相同;第四行是鹼基質量值,是對第二行序列的鹼基的准確性的描述,一個鹼基會對應一個鹼基質量值,所以這一行和第二行的長度相同。以下為一條read信息的示例:

原始下機數據包含建庫時引進的接頭序列以及質量過低的鹼基,這些因素會導致後續比對到基因組的reads較少,從而導致得到的信息較少,因此需要進行過濾。利用trim_galore軟體對原始數據進行去除接頭序列及低質量鹼基等質控步驟。

(二)序列比對

經過質控的reads需要根據與參考基因組的序列相似度比對到參考基因組上。相比於常規基因組及轉錄組測序,WGBS測序方法產生的數據的特點決定其在比對時存在三大困難:

(1)DNA片段正鏈和負鏈經過重亞硫酸鹽轉化後將不再反向互補,再經過PCR,便會產生四條不同的序列,這將大大增加比對時的計算量。

(2)經過重亞硫酸鹽轉化後,DNA序列大部分C鹼基被轉化成T鹼基,因此序列含大量T而缺乏C;經過PCR後,產生的互補鏈則含有大量A而缺乏G。這樣便導致序列的復雜度降低(即序列的組成特徵更單一),從而增加比對的難度。

(3)C和T的比對是不對稱的。經過重亞硫酸鹽轉化後,序列中非甲基化的C鹼基(佔大部分)被轉化為T,這將導致測序序列與參考基因組不匹配,T既可能應該比對到T上,有可能應該比對到C上;而C則只能比對到C上。這也增加了比對的難度。

利用BSMAP軟體進行比對。BSMAP進行比對時,先以參考基因組上C鹼基的位置作為指導,將reads中對應參考基因組C鹼基位置的T標記為C,其他T保持不變,從而使reads可以直接比對到參考基因組。

(三)甲基化水平計算

甲基化水平可根據未轉化為 T 的 C 與轉化為 T 的 C 的 reads 的比例計算得到,即:

Beta-value = C-reads / (C-reads + T-reads) * 100%

其中,Beta-value 即為該胞嘧啶的甲基化水平,C-reads 為覆蓋該位點的支持甲基化的reads 數目(測得該位點為 C 的 reads),T-reads 為覆蓋該位點的不支持甲基化的 reads 數目(測得該位點為 T 的 reads)。 計算原理示意圖如下:

利用BSMAP統計甲基化水平。

(四)差異甲基化區域(DMR)鑒定及統計

DMR檢測使用權威期刊發表的metilene軟體。該軟體先將基因組進行預分段,以排除較長序列中不包含CG位點的片段。隨後,利用二元分隔演算法,遞歸縮小檢測范圍,以搜索得到組間累積平均甲基化差異最大的區域,作為可能的DMR;最後,結合雙重統計學檢驗(MWU-test和2D KS-test),得到准確的DMR。檢測原理如下圖所示:

本分析檢測DMR的標准如下:

(1)區域平均甲基化差異不小於0.1;

(2)CpG位點數不少於5個;

(3)區域長度不小於50 bp;

(4)甲基化水平差異統計檢驗的校正P值小於0.05;

(5)2D KS-test檢驗P值小於0.05。

(五)信息分析流程示意圖

DNA甲基化組學研究的核心內容在於對DNA甲基化數據的挖掘。DNA甲基化一般遵循三個步驟進行數據挖掘。

首先,進行整體全基因組甲基化變化的分析,包括平均甲基化水平變化、甲基化水平分布變化、降維分析、聚類分析、相關性分析等。

其次,進行甲基化差異水平分析,篩選具體差異基因,包括DMC/DMR/DMG鑒定、DMC/DMR在基因組元件上的分布、DMC/DMR的TF結合分析、時序甲基化數據的分析策略、DMG的功能分析等。

最後,將甲基化組學&轉錄組學關聯分析,包括Meta genes整體關聯、DMG-DEG對應關聯、網路關聯等。

Whole-Genome Bisulfite Sequencing of Two Distinct Interconvertible DNA Methylomes of Mouse Embryonic Stem Cells. 兩種狀態的小鼠胚胎幹細胞的甲基化組學研究

1、背景

小鼠胚胎幹細胞一般生長在含有血清的基質中,被稱作血清幹細胞(serum ESCs);加兩種激酶抑制因子使胚胎幹細胞在無血清的情況下更能保持多能性的基態,這種幹細胞稱為2i幹細胞(2i ESCs);這兩種狀態的胚胎幹細胞可以互相轉化。以前這方面的甲基化研究大多基於質譜,覆蓋度和研究結果有限,尚缺乏2i胚胎幹細胞的甲基化組學研究。

2、方法

利用全基因組重亞硫酸鹽甲基化測序(WGBS),對這兩種可互相轉換的小鼠胚胎幹細胞進行甲基化組學研究

3、結論

全面准確的檢測了兩種小鼠胚胎幹細胞的DNA甲基化修飾並進行了系統的比較;同serum ESCs相比,雄性2iESCs全局低甲基化;在血清中,雌性ESCs跟雄性2i ESCs類似呈現全局低甲基化,而在2i ESCs狀態下,甲基化水平會進一步降低。

以上就是關於全基因組甲基化測序實驗流程和分析思路的介紹。

參考文獻:

[1] Ashburner, M. and C. A. Ball, et al. Gene ontology: tool for the unification of biology. The Gene Ontology Consortium. Nat Genet, 2000, 25 (1): 25-9.

[2] Dirk Schübeler. Function and information content of DNA methylation. Nature, 2015, 517: 321–326.

[3] Frank Jühling et al. metilene: Fast and sensitive calling of differentially methylated regions from bisulfite sequencing data. Genome Research, 2016, 26: 256-262.

[4] Kanehisa M, Goto S. KEGG: kyoto encyclopedia of genes and genomes. Nucleic acids research, 2000,28(1): 27-30.

[5] Tadafumi Kato Kazuya Iwamoto. Comprehensive DNA methylation and hydroxymethylation analysis in the human brain and its implication in mental disorders. Neuropharmacology, 2014, 80: 133-139.

[6] Xiaojing Yang et al. Gene Body Methylation Can Alter Gene Expression and Is a Therapeutic Target in Cancer. Cancer Cell 26, 577–590.

[7] Yuanxin Xi et al. BSMAP: whole genome bisulfite sequence MAPping program. BMC Bioinformatics, 2009, 10:232.

[8] Gao F, et al. De novo DNA methylation ring monkey pre-implantation embryogenesis. Cell Res. 2017 Apr;27(4):526-539. pii: cr201725.

⑷ 老鼠全基因組測序一般覆蓋度有多少

基因組測序的測肆攜碼序深度一般是10X。測序深度是指測序得到的總鹼基數與待測基因組大小的比值。假設一個基裂哪因大小為隱寬2M,測序深度為10X,那麼獲得的總數據量為20M。基因測序是一種新型基因檢測技術,能夠從血液或唾液中分析測定基因全序列,預測罹患多種疾病的可能性,個體的行為特徵及行為合理,如癌症或白血病,運動天賦,酒量等。

⑸ 全基因組測序的測序指標

測序覆蓋度:基因組臘段鬧被測序得到的鹼基覆蓋的比例;測序覆蓋度是反映測序隨機性的指標之一;測序序深度與覆蓋燃李度之間的關系可以過Lander-Waterman Model(1988)來輪罩確定。當深度達到5X時,則可覆蓋基因組的約99.4%以上。

⑹ PCAWG | 泛癌全基因組分析

發表期刊:Nature 

發表日期:2020.02

影響因子:42.778

癌症是全球第二大常見死因,每年超過800萬人因癌症喪命。預計在未來十年,癌症發生率將增加50%以上。癌症是體細胞亞克隆自主發展和擴散類疾病的總稱。癌症克隆控制多個細胞通路,打破正常細胞的生長和調控等限制,獲取自主發展和擴散的特徵。單個細胞通路改變不足以引發癌症。每個癌症由潛在的致病異常「池」中的多個異常通路組合而引發。

腫瘤異質性來自於達爾文進化的隨機性。達爾文進化的三個先決條件:(1)群體中的特徵是變化的;(2)變異從親本遺傳到子代;(3)群體為了生存進行競爭。一部分突變改變細胞表型,一部分突變使克隆獲取逃逸正常生理控制的優勢。提供選擇優勢的突變稱為驅動突變,反之稱為乘客突變。

選用2834個患者人全基因組測序數據(WGS),去除176個患者低質量數據,共計2658個患者的WGS數據,其中有2583個患者高質量數據。2658個患者共取2605個原發腫瘤和173個轉移或復發腫瘤,正或談常樣本平均測序深度為39×,腫瘤測序深度分別為38×和60×。研究群體包括1469男性(55%)和1189女性(45%),平均年齡56歲,覆蓋38種腫瘤類型。其中,1222個患者具有RNA-seq數據。

利用以上數據分析somatic SNVs, somatic Indels, somatic CNVs, somatic SVs,體細胞逆轉錄事件,線粒體DNA突變、端粒長度以及germline SNV, Indel, SVs等事件。

利用3個核心變異檢測流程和額外10個變異檢測流程,對63對tumor-normal變異檢測,估測3個核心流程的敏感度和精確度。並對其中50對進行高深度靶向測序驗證。3個核心流程檢測到真實變異的敏感度為80~90%,每個流程檢測的95%以上變異是真實的somatic mutations。針對Indel檢測,3個核心流程的敏感度是40~50%,精確度是70~95%。SV檢測演算法的精確度在80~95%。

對3個核心流程的變異結果合並,評估合並集合中突變的屬性:Somatic SNVs敏感度為95%(90%置信區間,88~98%),精廳團辯確度為95%(90%置信區間,71~99%)。Somatic Indels 檢測敏感度為60%(34~72%)和精確度91%(73~96%)。合並的Somatic SVs 敏感度為90%,精確度為97.5%。多種方法檢測變異提高了低頻突變檢出的准確性。

分析2583個患者數據,共檢測到43,778,859個somatic SNVs,410,123個somatic 多核酸突變,2,418,247個somatic Indels,288,416個somatic SVs,19,166 體細胞逆轉錄事件,8,185個新線粒體突變。通過相關性分析,發現診斷年齡和體細胞突變數量相關:年齡每增長一年,增加約190個SNVs,約22個Indels。

3.1癌症驅動突變全景圖

根據突變的性質和已知扮缺癌症相關基因,預測腫瘤的驅動基因;利用已知的啟動子和增強子分析非編碼驅動突變。結果發現,91%的腫瘤至少有1個驅動突變,每個腫瘤平均有4.6個驅動突變(癌種之間變化較大)。對於編碼區點突變,每個腫瘤平均有2.6個驅動突變。除此之外, 13%(785/5913)的驅動點突變是非編碼突變,而且1/3(237/785)突變發生在 TERT 啟動子上;25%腫瘤具有非編碼驅動突變。說明:非編碼區驅動點突變頻率較編碼區低;與 TERT 啟動子相比,其他啟動子和增強子並不常發生驅動突變。

根據腫瘤類型,SVs和點突變致力於不同的癌症發生機制。驅動SVs常發生在乳腺癌和卵巢腺癌;驅動點突變常出現在在結腸腺癌和成熟B細胞淋巴瘤。

文章發現抑癌基因的驅動突變多為二次打擊事件。例如,954個腫瘤具有 TP53 突變,736(77%)個腫瘤樣本的兩個等位基因均發生突變,其中96%(707/736)是等位基因突變和等位基因缺失同時發生。17%的病人在癌症相關基因上具有稀少的胚系蛋白截斷體突變,5.4%病人由於somatic mutations導致以上基因次等位基因失活。

3.2沒有驅動突變的PCAWG腫瘤數據分析

90%以上的PCAWG樣本鑒定到驅動突變,仍有181個樣本未檢測到驅動突變。分析腫瘤樣本未找到驅動突變的原因,有以下幾點:(1)樣本質量低:4/181個樣本的正常對照被腫瘤DNA污染,每個對照含有超過5%的腫瘤DNA;同理,腫瘤樣本中腫瘤細胞含量較低也會影響突變檢出;(2)驅動突變位點覆蓋度較低無法滿足突變檢出:6個肝細胞癌和2個膽管癌在高深度靶向測序後檢測到 TERT 突變;(3)生信分析方法:35個骨髓增生性腫瘤未檢測到 JAK2 V617F 突變,由於利用Panels of normals作為對照去除測序影響導致。2~5%的健康人群具有造血克隆,可能涵蓋了驅動突變;(4)驅動基因檢測力不足,說明某些腫瘤中存在未被發現的基因富集;(5)染色體變異:19/43腎細胞癌和18/81前列腺癌缺少驅動突變,但發生染色體異常,有可能單憑染色體擴增或缺失足以引發癌症。

3.3成簇突變和SVs模式

癌症中,單個災難性事件可產生多個聚集性突變,導致基因組大量重組。主要包含:(1)染色體重排:不同染色體的DNA雙鏈斷裂修復導致重排發生;(2)Kataegis(雷雨):單鏈DNA局部超突變,導致聚集性核苷酸替換;(3)染色體碎裂:數十數百個DNA斷裂同時發生在一個或者幾個染色體,產生的碎片隨機組合在一起。

467個樣本(17.8%)發生染色體重排和平衡易位,主要發生在前列腺癌、淋巴系統惡性腫瘤和甲狀腺癌。重排事件導致甲狀腺癌的部分融合基因的產生,例如 RET 、 NTRK3 和 IGF2BP3 等等。

60.5%癌症中發生Kataegis事件,例如肺鱗癌、膀胱癌、肢端黑色素瘤和肉瘤等。Kataegis主要包含(1)由APOBEC活性導致TpC的C>N 突變;(2)聚合酶導致 T pT或Cp T 的T > N突變。81.7%的Kataegis事件與 APOBEC3B 表達水平相關,5.7%與易錯聚合酶相關,以及2.3%事件是GpC 或 CpC的胞嘧啶脫氨導致的。Kataegis事件與SV斷點相關,尤其是缺失和復雜重排事件,包括在缺失附近10-25kb內Cp T pT的T>N 突變。

Kataegis事件包含4種局部超突變類型:(1)脫靶體細胞超突變和局部Cp T pT的T>N 突變;(2)與復雜重排相關的APOBEC;(3)後隨鏈和早期復制區域的APOBEC;(4)後兩種類型混合。

587(22.3%)個染色體碎裂樣本,主要為肉瘤、腦膠質瘤、肺鱗癌、黑色素瘤和乳腺癌樣本。染色體碎裂伴隨全基因組重復,相關的驅動基因為 TP53 。肉瘤和B細胞淋巴瘤患者中,女性發生染色體碎裂的頻率高於男性;前列腺患者中,晚期患者具有更高頻率的染色體碎裂。染色體碎裂區域包含3.6%驅動基因和7%拷貝數驅動。

3.4進化中時間聚集性突變

根據分子時鍾分析每個腫瘤的進化史:主克隆發生在早期,亞克隆突變發生在後期;拷貝數擴增區域,分子時間根據突變發生在拷貝之前或者之後進行劃分。染色體碎裂通常發生在主克隆,特別是在脂肪肉瘤、前列腺癌和肺鱗癌說明是癌症進化早期事件。在黑色素瘤中,染色體碎裂擴增涉及到較多的癌症相關基因,例如 CCND1 ,  TERT ,  CDKN2A ,  TP53 和 MYC 。

在擴增的染色體碎裂事件中,利用SNV的拷貝數目計算擴增發生的時間,SNV發生在擴增之前,將會有很高比例的reads攜帶SNVs。相反,SNV發生在拷貝數變異之後,將只有一條染色體攜帶SNV,具有較低的變異頻率。肢端黑色素瘤的 CCND1 擴增區域具有較少的高頻突變,而皮膚黑色素瘤更多突變發生在擴增之前。

3.5胚系突變對somatic mutations的影響

根據檢測到的胚系突變分析胚系突變對體細胞突變率和模式的影響作用。利用歐洲群體中MAF>5%的胚系突變位點進行GWAS分析,發現 APOBEC3B 突變機制可以利用22q13.1預測,信號最強位點是rs12628403。該位點標記了常見的30kb胚系 APOBE3B 編碼序列缺失和 APOBEC3B 的3』非翻譯區域 APOBE3A 編碼序列融合。除此,文章在22q13.1位置發現一個新的突變位點rs2142833,並驗證其與 APOBEC3B 突變相關性。rs12628403和 rs2142833在歐洲群體中是獨立遺傳的,rs2142833是 APOBEC3B 的eQTL。

利用稀有突變(MAF<0.5%)分析歐洲群體中胚系蛋白截短體(PTVs)和體細胞DNA重排相關性。胚系BRCA2和BRCA1蛋白截短體和小於10kb的體細胞缺失和串聯重復負荷相關。BRCA1蛋白截短體和模板插入具有顯著相關。20/21個BRCA1相關腫瘤出現模板插入表型,且胚系突變和體細胞突變均發生在該基因上。說明 BRCA1 基因的次等位基因失活驅動模板插入SV表型。

稀有突變關聯分析發現胚系MBD4蛋白截短體突變增加CpG位置的體細胞C>T突變。 MBD4 編碼DNA修復基因,移除甲基化CpG上的T:G錯配的胸腺嘧啶。

評估LINE調控體細胞反轉座子事件,驗證114個胚系LINE對體細胞反轉座激活能力,包含70個人類基因組相關插入和53個連鎖不平衡SNP。16個L1元件介導67%(2440/3669)的轉座事件,以兩種形式進行體細胞激活,稱為Strombolian和Plinian;Strombolian在人群中分布頻率較高,引發中小規模的體細胞L1激活;Plinian在群體中頻率很低,引發嚴重的體細胞L1激活。

3.6復制的永生

癌症特徵之一是逃避細胞衰老,保持端粒長度是癌症永久復制的因素之一。16%的腫瘤在 ATRX ,  DAXX 和 TERT 基因上發生突變。聚類端粒序列的12個特徵得到4個腫瘤亞型,說明 ALT 和 TERT 介導的端粒變異的不同。

體細胞驅動突變在四個亞型中分布不同。C1主要富集 RB1 突變和影響 ATRX 的SV,C2主要富集 ATRX 和 DAXX 的體細胞點突變,C3樣本主要發生 TERT 啟動子突變。 RB 基因缺失與端粒延長相關。高頻發生端粒異常機制的腫瘤主要由於組織中低復制活性。

總結

利用泛癌全基因組測序數據對驅動突變、結構變異、克隆進化以及轉座子事件和端粒模式進行詳細分析,繪制泛癌基因組特徵和闡明引發癌症的多樣性因素。

參考文獻

ICGC/TCGA Pan-Cancer Analysis of Whole Genomes Consortium. Pan-cancer analysis of whole genomes. Nature. 2020, 578(7793): 82-93.

原文鏈接:https://www.nature.com/articles/s41586-020-1969-6