化合物甲基化資料庫_深度學習給生物學帶來了哪些改變

1. 生物甲基化詳細資料大全

與甲基化有關主要有三種輔酶：S-腺甘加硫胺基酸，N-甲基四氫葉酸衍生物和B12（甲基類咕啉）衍生物。通過三種輔酶，把甲基轉移給胺、苯酚和硫醇，生成N-、O-和S-甲基衍生物。這三種輔酶中，對外源性化合物的甲基化，以搏鬧沒S-腺苷甲硫酸最重要。它是由L-甲酸胺基酸和ATP合成的。

基本介紹

中文名：生物甲基化
外文彎租名：biomethylation
含義：生物體的一種解毒反應。
逆過程：逆過程為生物反甲基化作用

biomethylation 生物甲基化 是生物體的一種解毒反應。這種轉化的逆過程為生物反甲基化作用。指對於脫氧核糖核酸（DNA）的某些特定部位上鹼基進行甲基化的過程。通常能進行甲基化的物質是一些親電子化合物（如二甲酯等），其分子中都帶有一個或多個活性烷基（活性甲基），可轉移到DNA分子中的鹼基上或主基納鏈的磷酸基上。鹼基中最容易被甲基化的是鳥嘌呤，特別是鳥嘌呤的O6和N7，甲基化後成為O6-甲基鳥嘌呤或N7-甲基鳥嘌呤，可使復制發生錯配。

2. 如何通過結構式查詢該化合物信息

通常學化學的朋友，需要畫些簡單的分子結構圖或者反應式，用chemical draw，比較的麻煩，而在常用的word、wps中來畫則比較方便。首先,我們想好結構布局圖,然後先編輯好需要的分子結構的字母以及分布然後選擇工具欄上的"插入"選擇"形狀",選擇需要的圖形，如直線，然後在鏈端中間將直線放進去調整好間距即可。

一、原始文獻追溯法
從化合物相關的化學文獻中去尋找，最初發表這個化合物的那篇化學論文，肯定有結構式，文獻查找方法主要依賴於SCIfinder。文獻包括中文文獻、英文和其他語言種類的文獻。最直接最管用的方法。
二、軟體查詢法
例如chemdraw，名稱轉化為結構。chemdraw 裡面有名稱和結構的轉換在structure 的選項里，這個主要是針對一些常見的化合物。
其他轉件待補充。
三、CAS號搜索法
直接搜索，找到CAS號，然後去搜索結構，或者用個化學軟體，把名稱打進去

3. 甲基化測序的甲基化測序服務流程

1. 甲基化DNA免疫共沉澱MeDIP；
2. 測序文庫構建雙鏈DNA末端修復及3』末端加』A』使用特定的測序接頭租叢連接DNA片段兩端高保真聚合酶擴增構建的測序文庫；
3. DNA成簇Cluster擴增；
4. 高通量測序Illumina Genome Analyzer IIx；
5. 數據分析原始數據讀取與資料庫比對並進行注釋確定甲基化位點深層次數據分析；
6. 提供實驗報告原始數據報告Fasta-Q格式包含所有測序序列信息鹼基讀取質量評估基本數據分析報告Excel表格包含有效序列的序列信息、與參弊顫櫻考基因組比對後的注釋信息等。高級數據分析應客戶要求定製如甲基化區域enriched region鑒定分析兩樣本間甲基化水平有差異的區域並注釋結洞基合表達譜分析其對基因的表達調控。

4. 甲基化反應詳細資料大全

甲基化反應有機化合物分子中的氫被甲基(-CH3)取代的反應。

methylation 有機化合物分子中的氫被甲基(-CH3)取代的反應。苯與鹵甲烷在三氯化鋁等催化劑作用下可發生甲基化反應生成甲苯。由於甲顫簡升苯比苯更易反應，因此一般難停留在一取代階段，往往進一步甲基化，生成多甲基苯。茄老醇和酚羥基中的氫可被甲基取代，生成甲基醚，用此方法可保護羥基。最常用的甲基化試劑是碘甲烷和硫酸二甲酯。咐枯胺與鹵甲烷反應，氮上的氫被甲基取代，並且可進一步甲基化，直至徹底甲基化生成四級銨鹽。

5. 國際著名的三大蛋白質資料庫

國際著名的三大蛋白質資料庫有UniProt資料庫、The Human Protein Atlas資料庫、PhosphoSitePlus資料庫。

1、UniProt資料庫

蛋白組學常用資料庫UniProt（全稱UniProt Protein Resource），建立於1986年，由Swiss-Protein、TrEMBL、PIR-PSD三大蛋白質資料庫聯合成立的，其信息量豐富、資源廣泛，是目前公認的首選免費蛋白質資料庫。

2、The Human Protein Atlas資料庫

The Human Protein Atlas內含近30000種人類蛋白質的組織和細胞分布信息，並提供免費查詢。

瑞典Knut&Alice Wallenberg基金會利用免疫組化技術，檢查每一種蛋白質在人類48種正常組織，20種腫瘤組織，47個細胞系和12種血液細胞內的分布和表達，其結果用至少576張免疫組化染色圖表示，並經專業人員校對和標引，保證染色結果具有充分的代表性。

3、PhosphoSitePlus資料庫

PhosphoSitePlus資料庫是一個由CST和NIH聯合開發的免費資源資料庫，總結歸納了海量通過科學研究發現的蛋白修飾位點，包括磷酸化、甲基化、乙醯化、泛素化等，並且包括一些CST公司發現但未發表的蛋白修飾位點。

該資料庫是動態的、開放的、高度互動並持續更新的。它有助於研究PTMs在正常和病理細胞/組織中的作用，同時它也是發現新的疾病標志物和葯物靶點的有力工具。

性能及歷史

蛋白質資料庫（HPDB），建於2005年5月，動態展示生物大分子立體結構，滑鼠點擊放大分子結構、原子定位、測定原子之間距離，可用於教學或科研。服務對象是能夠熟練使用中文的生命科學、醫學、葯學、農學、林學等領域的大中專學生、教師及科技工作者。

分子結構特徵描述採用漢語，同時提供英文原文以供考證。對於善於使用英文的讀者，我們提倡直接訪問RCSB PDB，一來可以減少網路擁擠，二來可以減少由於HPDB的翻譯不妥帶來的不便。

蛋白質資料庫（HPDB）對每個蛋白質分子結構說明部分做了中文翻譯（最新加入資料庫的分子除外），內容包括分子結構定性描述、樣品的來源、表達載體、宿主、化學分析方法、分子結構組成成分等。這些信息並同蛋白質分子結構數據存儲於資料庫，因此HPDB支持中文查詢。

蛋白質資料庫（HPDB）雖然翻譯了「分子結構說明」部分，但為了保證數據的可靠性和准確性，HPDB對一級結構序列及大分子結構坐標數據等未做任何改動，資料庫保持RCSB PDB核實後的原始實驗數據文件，並保持PDB文件格式和蛋白質分子編號。

6. 深度學習給生物學帶來了哪些改變

深度學習研究及其在生物醫葯領域的潛在應用
深度學習已經在各種生物學應用中取得成功。在本節中，我們回顧了在各個研究領域進行深度學習的挑戰和機會，並在可能的情況下回顧將深度學習應用於這些問題的研究（表1）。我們首先回顧了生物標志物開發的重要領域，包括基因組學，轉錄組學，蛋白質組學，結構生物學和化學。然後，我們回顧一下葯物發現和再利用的前景，包括使用多平台數據。
生物標志物。生物醫學的一個重要任務是將生物學數據轉化為反映表型和物理狀態（如疾病）的有效生物標志物。生物標志物對於評估臨床試驗結果[18]以及檢測和監測疾病，特別是像癌症這樣的異質性疾病，是至關重要的[19,20]。識別敏感特異性生物標志物對於現代轉化醫學來說是一個巨大的挑戰[21,22]。計算生物學是生物標志物發展。事實上，從基因組學到蛋白質組學都可以使用任何數據來源;這些在下一節中討論。
基因組學。新一代測序（NGS）技術已經允許生產大量的基因組數據。這些數據的大部分分析都可以用現代計算方法在計算機上進行。這包括基因組的結構注釋（包括非編碼調控序列，蛋白質結合位點預測和剪接位點）。
基因組學的一個重要分支是宏基因組學，也被稱為環境，生態基因組學或社區基因組學。NGS技術揭示了未經培育且以前沒有得到充分研究的微生物的自然多樣性。
宏基因組學中有幾個生物信息學挑戰。一個主要挑戰是序列數據的功能分析和物種多樣性的分析。深信念網路和經常性神經網路的使用已經允許通過表型分類宏基因組學pH數據和人類微生物組數據。與基線方法相比，這些方法並沒有提高分類准確性作為強化學習，但確實提供了學習數據集的分層表示的能力.[23]但是，Ditzler等強調DNN可以改善現有的宏基因組學分類演算法，特別是在大數據集和適當選擇網路參數的情況下。
表1. 深度學習技術應用於不同類型生物醫學數據的總結

應用

數據源

研究目的

DL技術

准確率

利用深度學習增強癌症診斷和分類[28]

13種不同的癌症基因表達數據集（13 different gene expression data sets of cancers）

癌症檢測，癌症類型分類

稀疏和堆棧自動編碼器+ Softmax回歸

對於每個數據集的准確度都比基準更好

深度學習組織調節拼接代碼[32]（Deep Learning of the Tissue-Regulated Splicing Code）

從RNA-Seq數據分析11 019個小鼠替代外顯子（11 019 mouse alternative exons profiled from RNA-Seq data）

拼接模式識別

自動編碼器+ DNN（3層）+薄荷（超參數選擇）

AUC優於基線准確度

深卷積神經網路注釋基因表達模式的小鼠腦[30]

由Allen Institute for Brain Science的小鼠腦的四個發育階段的ISH圖像

基因表達注釋

CNN（Overfeat）

AUC=0.894

多模式深度學習方法的多平台癌症數據的綜合數據分析[52]

卵巢癌和乳腺癌數據集（ovarian and breast cancer data sets）

聚集癌症患者

DBNs

lncRNA-MFDL：通過融合多個特徵和使用深度學習鑒定人類長的非編碼RNA[34]

Gencode和RefSeq的蛋白質編碼和非編碼序列（protein-coding and noncoding sequences from Gencode and RefSeq）

鑒定長的非編碼RNA

lncRNA-MFDL（深層堆疊網路，每個單元DNN）

ACC = 97.1%

用於宏基因組分類的多層和遞歸神經網路[23]

pH微生物組測序數據集和人微生物組測序數據集（pH microbiome sequencing data set and human microbiome sequencing data set）

宏基因組分類

MLP, DBN, RNN

comparison

Multi-Level Gene/MiRNA Feature Selection using Deep Belief Nets and Active Learning[27]

來自6種癌症的MiRNA表達數據（MiRNA expression data from 6 type of cancers）

Gene/MiRNA特徵選擇（基因表達）

MLFS（DBN +特徵選擇+無監督主動學習）（MLFS (DBN + feature selection + unsupervised active learning)）

F1 = 84.7%

成對輸入神經網路用於目標配體相互作用預測[45]

sc-PDB資料庫（sc-pdb：用於鑒定蛋白質中「可葯用」結合位點的變化和多樣性的資料庫）

蛋白質 - 配體預測

PINN (SVD + Autoencoder/RBM)

AUC = 0.959

非編碼變數與深度學習序列模型的預測效應[49]

來自ENCODE和Roadmap Epigenomics項目的160種不同TF，125種DHS譜和104種組蛋白標記譜的690 TF結合譜

從序列中預測非編碼變異效應

DeepSEA (CNN)

AUC = 0.923 (histone)

通過深度學習預測DNA和RNA結合蛋白的序列特異性[48]

506 ChIP-seq實驗，DREAM5 TF-DNA基序識別挑戰

DNA和RNA結合蛋白的特異性分類

DeepBind（CNN）

train, AUC = 0.85; validation,
AUC > 0.7

具有雙模深信道網路的蜂窩信號系統的跨物種學習[36]

來自SBV IMPROVER挑戰的磷酸化蛋白質組學數據

跨物種學習（模擬細胞信號系統）

bDBN (bimodal DBN) and
sbDBN (semirestricted bimodal
DBN)

AUC = 0.93

表達數量性狀基因（eQTL）的鑒定與闡明及其調控機制的深入研究[35]

GEUVADIS（來自從參與1000基因組項目的個體中提取的337個淋巴母細胞系的選擇的RNA-Seq和全基因組范圍的SNP-陣列數據的組合）

確定eQTL

MASSQTL（DNN）

AUC = 0.85

建立RNA結合蛋白靶點結構特徵的深度學習框架[43]

源自doRiNA的24個數據集（轉錄後調節中的RNA相互作用資料庫）

預測RNA結合蛋白的結合位點（RBP靶標識別）

DBN（多模式DBN）

AUC = 0.983 on PTB HITS-CL

DeepCNF-D：通過加權深度卷積神經場預測蛋白質有序/無序區域[42]

來自CASP的CASP9, CASP10數據集（蛋白質結構預測的關鍵評估）

預測蛋白質有序/無序區域

DeepCNF (CRF + CNN)

AUC = 0.855 on CASP9
AUC = 0.898 on CASP10

用深度神經網路分割微陣列[29]

兩個數據集，來自2006年Lehmussola等人的微陣列圖像

微陣列分割

CNN

MAE = 0.25

深度學習葯物引起的肝損傷[46]

四個數據集，化合物，化學結構注釋DILI陽性或DILI陰性（four data sets, compounds, chemical structure annotated DILI-positive or DILI-negative properties）

葯物性肝損傷預測

RNN（遞歸神經網路）

AUC = 0.955

從頭算蛋白質二級結構預測的深度學習網路方法[38]

訓練，Protein Data Bank; 驗證，CASP9，CASP10（蛋白質結構預測的關鍵評估）

從頭算蛋白質二級結構預測

DNSS（多模RBM）

Q3 = 90.7%, Sov = 74.2%

蛋白質接觸圖預測的深層架構[39]

ASTRAL database

蛋白質接觸圖預測

RNN + DNN

ACC ∼ 30%

用深機器學習網路建模葯物樣分子的環氧化作用[47]

Accelrys代謝物資料庫（AMD）：389個環氧化分子，811個非氧化分子（Accelrys Metabolite Database (AMD): 389 epoxidized molecules, 811 nonepoxidized molecules）

建模分子的環氧化性質

CNN

AUC better than baseline accuracy

DNdisorder：使用增強和深度網路預測蛋白質紊亂[41]

DISORDER723, CASP9, CASP10

預測蛋白質有序/無序區域

RBM

AUC better than baseline
accuracy

Basset：用深度卷積神經網路學習可訪問基因組的規則代碼[50]

來自ENCODE和Epigenomics Roadmap項目的164個細胞類型的DNasel-seq數據

學習DNA序列的功能活動

CNN

AUC = 0.892

a首字母縮寫詞：CNN=卷積神經網路，DNN=深度神經網路，RNN=遞歸神經網路，DBN=深信念網路，RBM=限制玻爾茲曼機器，MLP=多層感知器，MLFS=多級特徵選擇，PINN= 網路，CRF=條件隨機場。

轉錄。轉錄組學分析利用各種類型轉錄物（信使RNA（mRNA），長非編碼RNA（lncRNA），微小RNA（miRNA）等）豐度的變化來收集各種功能信息，從剪接代碼到各種疾病的生物標志物。
轉錄組學數據通常從不同類型的平台（各種微陣列平台，測序平台）獲得，其不同之處在於測量的基因組和信號檢測方法。許多因素導致基因表達數據的變異性。因此，即使對於單個平台分析也需要標准化。跨平台分析需要規范化技術，這可能是一個重大挑戰。由於DNN具有較高的泛化能力，因此特別適合於跨平台分析。他們也能很好地處理基因表達數據的其他一些主要問題，比如數據集的大小以及對降維和選擇性/不變性的需求，下面我們將回顧幾個已經使用的DNN 用不同類型的基因表達數據來獲得不同程度的成功。
表格數據應用程序。基因表達數據可以表示的一種方式是作為矩陣的表格形式，其包含關於轉錄物表達的定量信息。這些數據是高維度的，由於數據中的信噪比損失，使得統計分析成為問題。[25]
高維數據可以通過兩種方式處理：
I. 降維：
A.特徵提取，例如用SVM或隨機森林演算法;
B.特徵子集選擇;
C.途徑分析;
II. 使用對高維度較不敏感的方法，如隨機森林或深層信念網路。
諸如主成分分析（PCA），奇異值分解，獨立分量分析或非負矩陣分解等方法是常見的前沿方法。然而，上述方法將數據轉換成許多難以用生物學解釋的組件。此外，這種降維方法基於基因表達譜提取特徵而不管基因之間的相互作用。通路分析可以減少變數的數量，減少錯誤率並保留更多的生物相關信息。[25,26]
深度學習在處理高維基質轉錄組學數據方面也取得了一些成功。在另一種方法中，將基因表達的特徵與非編碼轉錄物如miRNA的區域一起提取; 這是通過使用深度信念網路和主動學習來實現的，其中使用了深度學習特徵提取器來減少六個癌症數據集的維度，並且勝過了基本特徵選擇方法[27]。主動學習與分類的應用提高了准確性，並且允許選擇與癌症相關的特徵（改進的癌症分類），而不僅僅基於基因表達譜。使用miRNA數據的特徵選擇是使用與先前選擇的特徵子集的目標基因的關系實施的。
在另一個深度學習應用中，Fakoor等人利用自編碼器網路進行推廣，並將其應用於使用從具有不同基因集合的不同類型的微陣列平台（Affimetrix家族）獲得的微陣列基因表達數據的癌症分類[28]。他們通過PCA和非監督非線性稀疏特徵學習（通過自動編碼器）結合使用降維來構建用於微陣列數據的一般分類的特徵。癌症和非癌細胞分類的結果顯示出了重要的改進，特別是使用監督微調，這使得特徵不那麼通用，但即使對於沒有跨平台標准化的數據也能獲得更高的分類准確性。自動編碼器的全球泛化能力有助於使用不同微陣列技術收集的數據，因此可能對來自公共領域的數據進行大規模綜合分析有前途。
圖像處理應用。基因表達也可以以可視形式存儲為圖像，例如來自微陣列的圖像熒光信號或RNA原位雜交熒光或放射性信號。在一些應用中，以圖像處理性能優越著稱的CNN已經顯示出改善這些圖像分析的潛力。
在微陣列分析中，由於斑點大小，形狀，位置或信號強度的變化，檢測信號和識別熒光斑點可能是具有挑戰性的，並且熒光信號強度通常對應於基因或序列表達水平差。在對這個問題的深度學習技術的一個應用中，CNN被用於微陣列圖像分割，並且在准確性方面顯示出類似於基準方法的准確度的結果，但是訓練更簡單並且對計算源的要求更少。[29]
將CNN應用於基於圖像的基因表達數據的另一個機會是RNA原位雜交，這是一種繁瑣的技術，當允許這樣的操作時，能夠使基因表達在一組細胞，組織切片或整個生物體中定位和可視化。這種方法促進強大的縱向研究，說明發展過程中的表達模式的變化。它被用於構建詳細的Allen DevelopmentMouse Brain Atlas，其中包含超過2000個基因的表達圖譜，每個基因在多個腦部分中進行說明。過去，這些手動標注是耗時的，昂貴的，有時也是不準確的。然而，最近，Zeng等人使用深度預訓練CNN進行自動注釋[30]。要做到這一點，神經網路模型訓練原始自然原位雜交圖像的不同層次的發展中國家的大腦沒有關於坐標（空間信息）的確切信息;這種技術在四個發展階段的多個大腦水平上實現了卓越的准確性。
剪接。深度學習的另一個應用領域是剪接。剪接是在真核生物中提供蛋白質生物多樣性的主要因素之一;此外，最近的研究顯示「拼接代碼」與各種疾病之間的聯系[31]。然而，現代科學仍然不能全面地理解控制剪接調控的機制。剪接調節的現代概念包括轉錄水平，特定信號調節序列元件（剪接增強子或沉默子）的存在，剪接位點的結構和剪接因子的狀態（例如特定位點的磷酸化可能改變剪接因子活性）。所有這些因素使分析變得復雜，因為它們之間存在大量元素和復雜的非線性相互作用。現有的拼接預測軟體需要高通量測序數據作為輸入，並且面臨著原始讀取比常規基因短的問題，以及基因組中假性基因的高重復水平和存在。因此，拼接機制的分析演算法很慢，需要高度的組合計算來源，深度學習可能會在這方面提供改進。在使用五個組織特異性RNA-seq數據集的一個深度學習應用中，使用隱變數來開發DNN以用於基因組序列和組織類型中的特徵，並且被證明優於貝葉斯方法預測個體內和組織間的組織剪接外顯子拼接的轉錄本百分比的變化（拼接代碼度量）[32]。
非編碼RNA。非編碼RNA是生物學中的另一個問題，需要復雜的計算方法，如深度學習。非編碼RNAs非常重要，涉及轉錄，翻譯和表觀遺傳學的調控[33]，但是它們仍然難以與編碼蛋白質的RNA區分開來。對於短的非編碼RNA，這個任務已經很好地解決了，但是對於lncRNA來說這是相當具有挑戰性的。lncRNAs組成異構類，可能含有推定的復制起點（ORF），短的蛋白質樣序列。開發了一種新的深層次的學習方法，稱為lncRNAMFDL，用於鑒定lnc-RNAs，使用ORF，k相鄰鹼基，二級結構和預測的編碼結構域序列等多種特徵的組合[34]。該方法使用從Gencode（lncRNA）和Refseq（蛋白質編碼mRNA數據）的序列數據中提取的五個單獨特徵，並且在人類數據集中導致97.1％的預測准確性。
表達量性狀基因座分析。最後，數量性狀基因座（QTL）分析有潛力進行深入的學習。 QTL分析鑒定含有多態性的遺傳基因座，所述多態性導致復雜的多基因性狀（例如，體重，葯物反應，免疫應答）的表型變異。顯示遺傳變異的一個這樣的「性狀」是給定組織和/或條件中任何給定基因的表達或轉錄本豐度。表達QTL（eQTL）是影響轉錄本豐度的遺傳變異的基因座。 eQTL分析已經導致了對人類基因表達調控的洞察力，但面臨著許多挑戰。在局部調節表達的eQTL（順式-eQTL）相對容易用有限數量的統計測試來鑒定，但是調節基因組中其它位置的基因表達的位點（trans-eQTL）更難以檢測到。最近，為了解決使用各種編碼的生物特徵（諸如物理蛋白質相互作用網路，基因注釋，進化保守，局部序列信息以及來自ENCODE項目的不同功能元件）的反式eQTL預測問題的深度學習方法MASSQTL[35]被提出。DNN利用來自其各自交叉驗證折疊的9個DNN模型，優於其他機器學習模型，並且提供了對基因表達的調控架構的基礎的新機制。深解碼系統也被用來對trans-eQTL特徵向量進行聚類，然後通過t-SNE降維技術進行可視化。
蛋白質組學。與轉錄組學相比，蛋白質組學是一個相當欠發達的研究領域，數據依然稀少，用於分析的計算方法較少。即使有相似的信號編碼和傳輸機制，人類蛋白質組學數據的缺乏以及將模型生物體結果轉化為人類的困難也使分析變得復雜。
深度學習可以以多種方式使蛋白質組學受益，因為一些方法不需要像其他機器學習演算法那樣的大量培訓案例。深度學習方法的其他優點是他們建立數據的分層表示，並從復雜的相互作用中學習一般特徵，從而有利於蛋白質的蛋白質組學和網路分析。例如，使用磷酸化數據，雙峰深信念網路已被用於預測大鼠細胞對相同刺激的刺激的細胞反應[36]。與傳統的管線相比，開發的演算法獲得了相當的准確性。
結構生物學和化學。結構生物學包括蛋白質折疊分析，蛋白質動力學，分子建模和葯物設計。二級和三級結構是蛋白質和RNA分子的重要特徵。對於蛋白質，適當的結構測定對於酶功能預測，催化中心和底物結合的形成，免疫功能（抗原結合），轉錄因子（DNA結合）和轉錄後修飾（RNA結合）是重要的。喪失適當的結構會導致功能喪失，並且在某些情況下會導致可能導致神經退行性疾病（如阿爾茨海默病或帕金森病）的異常蛋白質的聚集。[37]
基於復合同源性的比較建模是預測蛋白質二級結構的一種可能方式，但是受現有注釋良好的化合物的量限制。另一方面，機器學習從頭預測是基於公認的具有公知結構的化合物的模式，但是還不夠精確以至於不能實際使用。從頭開始使用深度學習方法通過使用蛋白質測序數據改進了結構預測[38]。同樣，深度學習已經被應用於使用ASTRAL資料庫數據和復雜的三階段方法來預測二級結構元素和氨基酸殘基之間的接觸和取向[39]。所使用的方法是分析偏倚和高度可變數據的有效工具。
三維結構的不變性在功能上也是重要的。然而，有幾種蛋白質沒有獨特的結構參與基本的生物過程，如細胞周期的控制，基因表達的調控，分子信號傳遞。此外，最近的研究顯示一些無序蛋白質的顯著性[37]; 許多癌基因蛋白具有非結構域，並且錯誤折疊蛋白的異常聚集導致疾病發展[40]。這種沒有固定三維結構的蛋白被稱為固有無序蛋白（IDP），而沒有恆定結構的結構域被稱為固有無序區（IDR）。
許多參數將IDP / IDR與結構化蛋白質區分開來，從而使預測過程具有挑戰性。這個問題可以使用深度學習演算法來解決，這些演算法能夠考慮各種各樣的特徵。2013年，Eickholt和Cheng發表了一個基於序列的深度學習預測指標DNdisorder，與先進的預測指標相比，改進了對無序蛋白質的預測[41]。後來在2015年，Wang等人提出了一種新的方法，DeepCNF，使用來自蛋白質結構預測的臨界評估（CASP9和CASP10）的實驗數據，能夠准確預測多個參數，如IDPs或具有IDR的蛋白質。DeepCNF演算法通過利用眾多特徵，比基線單從頭（從頭算）預測指標執行得更好[42]。
另一類重要的蛋白質是結合單鏈或雙鏈RNA的RNA結合蛋白。這些蛋白質參與RNA的各種轉錄後修飾：剪接，編輯，翻譯調控（蛋白質合成）和聚腺苷酸化。RNA分子形成不同類型的臂和環，需要識別和形成RNA和蛋白質之間連接的二級和三級結構。RNA的二級和三級結構是可預測的，並且已經被用於建模結構偏好偏好和通過應用深度信念網路預測RBP的結合位點[43]。深度學習框架在真正的CLIP-seq（交聯免疫沉澱高通量測序）數據集上進行了驗證，以顯示從原始序列和結構分布中提取隱藏特徵的能力，並准確預測RBP的位點。
葯物發現和再利用。計算葯物生物學和生物化學廣泛應用於葯物發現，開發和再利用的幾乎每個階段。過去數十年來，不同的研究團體和公司在全球范圍內開發了大量用於計算機模擬葯物發現和目標延伸的計算方法，以減少時間和資源消耗。雖然存在許多方法[44]，但是還沒有一個是最優的（例如，無法執行通量篩選或者通過蛋白質類別進行限制），現在一些研究表明深度學習是一個重要的考慮方法（表1）。
葯物發現的重要任務之一就是預測葯物靶點的相互作用。靶標（蛋白質）通常具有一個或多個與底物或調節分子的結合位點; 這些可以用於建立預測模型。然而，包括其他蛋白質的成分可能會給分析帶來偏見。成對輸入神經網路（PINN）接受具有從蛋白質序列和靶分布獲得的特徵的兩個載體的能力被Wang等人用來計算靶標-配體相互作用[45]。神經網路的這種優勢比其他代表性的靶標-配體相互作用預測方法有更好的准確性。
葯物發現和評估是昂貴，耗時且具有風險; 計算方法和各種預測演算法可以幫助降低風險並節省資源。一個潛在的風險是毒性; 例如，肝毒性（肝毒性）是從生產中去除葯物的常見原因。用計算方法預測肝毒性可能有助於避免可能的肝毒性葯物。使用深度學習，可以有效地確定原始化學結構的化合物毒性，而不需要復雜的編碼過程[46]。使用CNN也可以預測諸如環氧化的性質，這意味著高反應性和可能的毒性; 這是休斯等人首次實施的。通過使用環氧化分子和氫氧化物分子的簡化分子輸入線入口規格（SMILES）格式數據作為陰性對照[47]。
多平台數據（Multiomics）。使用多平台數據的能力是深度學習演算法的主要優勢。由於生物系統復雜，具有多個相互關聯的元素，基因組學，表觀基因組學和轉錄組學數據的系統級整合是提取最有效且有生物學意義的結果的關鍵。整合過程在計算上不是微不足道的，但收益是生物標志物特異性和靈敏度比單一來源方法的增加。
計算生物學中需要分析組合數據的主要領域之一是計算表觀遺傳學。有聯合分析基因組，轉錄組，甲基化組特徵和組蛋白修飾提供了准確的表觀基因組預測。
一些研究人員已經開發出深度學習方法，可用於分析來自多個來源的數據（表1）。Alipanahi等人開發了基於深度學習的方法DeepBind（tools.genes.toronto.e/deepbind/），以在各種疾病中計算核苷酸序列結合轉錄因子和RNA結合蛋白的能力，並表徵單點突變對結合特性的影響。DeepBind軟體受CNN啟發，對技術不敏感; 相反，它與從微陣列到序列的定性不同形式的數據是相容的。CPU的實現也允許用戶並行化計算過程[48]。在另一個基於CNN的應用程序中，Zhou和Troyanskaya設計了DeepSEA框架來預測染色質特徵和疾病相關序列變異的評估。與其他計算方法不同，他們的演算法能夠捕獲每個結合位點的大規模上下文序列信息，用於注釋從頭序列變異體[49]。開發了類似的CNN管線，揭示了序列變異對染色質調控的影響，並對DNase-seq（DNase I測序）數據進行了培訓和測試[50]。一種名為Bassed的深度學習軟體優於基線方法，並且在所有數據集上達到平均AUC0.892。最後，隨著深層特徵選擇模型的發展，深度學習被用於識別主動增強器和促進器，該模型利用了DNN對復雜非線性相互作用進行建模的能力，並學習了高層次的廣義特徵[51]。模型從多平台數據中選擇特徵，並按照重要性進行排序。在這些應用中，深度學習方法是染色質性質的更敏感和更有力的預測因子，也是復雜生物標志物發展的關鍵。
癌症是一組異質性疾病的廣泛名稱，其中一些是由基因突變引起的，因此使用多平台數據的癌症分類可以揭示潛在的病理學。Liang等人開發了一個具有多平台數據的深層信念網路模型，用於癌症患者的聚類[52]。使用受限玻爾茲曼機對每種輸入模式定義的特徵進行編碼。這種方法的一個優點是深層信念網路不需要具有正態分布的數據，因為其他聚類演算法和遺傳（生物）數據不是正態分布的。
最後，從自然語言處理的角度來看，深度學習在通過巨大的非結構化（研究出版物和專利）和結構化數據（知識注釋圖，如基因本體論[53]或Chembl[54]）瀏覽時，通過檢驗假設的合理性。這些資料庫一起形成了一個龐大的，多平台的數據集，如果結合起來，這些數據集將更加豐富和全面。
總之，現代生物數據的龐大規模，對於以人為本的分析來說太龐大而復雜。機器學習，特別是深度學習與人類專業知識相結合，是將多個大型多平台資料庫完全集成的唯一途徑。深度學習使人類能夠做到以前無法想像的事情：具有數百萬輸入的圖像識別，語音識別以及接近人類能力的語音自動化。雖然深度學習和特別是無監督的深度學習仍處於起步階段，特別是在生物學應用方面，但最初的研究支持它作為一種有希望的方法，盡管在實施中不受限制和挑戰，但可以克服生物學數據的一些問題，對數百萬間接和相互關聯的疾病機制和途徑的新見解。

7. 國家基因組科學數據中心怎麼用

sisichen �
關注
國家基因組科學數據中心（NGDC）---組學原始數據如何上傳GSA 原創
2022-04-25 14:44:31

sisichen �

碼齡4年

關注
文章目錄
前言
一、什麼是NGDC？
二、NGDC的發展歷程
三、什麼是GSA？
四、為什麼選擇上傳數據到GSA？
五、如何上傳測序原始數據至GSA？（重點！！附詳細步驟！！）
1. 准備要上傳的數據
2. 計算MD5碼
3.進入NGDC主頁，登入賬戶
4. 填寫數據信息
第一步：建立Bioproject。
第二步：建立BioSample。
第三步：創建GSA。
進入GSA資料庫
新建GSA
填寫信息
下載表格文件
5. 數據上傳：
(1). 通過FTP軟體上傳（上傳需要流量！！如果小數據可以用）
(2). 通過伺服器上傳（推薦！！）:如果實驗室有伺服器的話，推薦伺服器上傳，步驟如下：（伺服器上要先安裝ftp ）
（3）郵寄硬碟
6.等待審核
總結
前言
在發表文章之前我們需要將測序的原始數據上傳到一個公共庫，並在文中提供accession number，實現數據的公開共享，這是國際慣例。以前我們上傳數據時只能上傳到美國國立生物技術信息中心（NCBI）、歐洲生物信息學研究所（EBI）、日本核酸資料庫(DDBJ)，現在中國科學院北京基因組研究所（國家生物信息中心）國家基因組科學數據中心 (CNCB-NGDC)—中國的「NCBI」已經建立並日漸完善。組學原始數據歸檔庫（GSA）是組學原始數據匯交、存儲、管理與共享系統，是國內首個被國際期刊認可的組學數據發布平台。GSA已獲得多個國際期刊認可，並已被國際著名出版商Elsevier收錄為指定的基因數據歸檔庫，其權威性得到國內外100餘家學術雜志的認可。GSA已通過FAIRsharing認證，獲得Wiley出版集團認可，因此我們不用擔心上傳數據到GSA不被期刊認可，也不用再舍近求遠上傳數據到NCBI，作為中國人，我們一定要支持我們NGDC中的資料庫。本文介紹了如何上傳測序原始數據到GSA，附詳細操作步驟。

一、什麼是NGDC？
國家基因組科學數據中心（https://ngdc.cncb.ac.cn/;NGDC）於2019年6月5日經科技部、財政部通知公布，由鮑一明研究員作為學術帶頭人，以中國科學院北京基因組研究所（國家生物信息中心）作為依託單位，聯合中國科學院生物物理研究所和中國科學院上海營養與健康研究所共同建設。中心面向我國人口健康和社會可持續發展的重大戰略需求，建立生命健康組學大數據儲存、整合與挖掘分析研究體系，研發生物多樣性與健康大數據匯交、應用與共享平台，發展大數據系統解析與轉化應用的新技術和新方法，建設支撐我國生命科學發展、國際知名的基因組科學數據中心。

2020年中心開發了8個全新資料庫 (2019nCoVR，Aging Atlas，BrainBase，CGIR，GTDB，LncExpDB，scMethBank和TransCirc)，更新和豐富了多個核心資料庫資源 (BioProject，BioSample，GSA，GWH，GVM，GEN和生物多樣性資源等)，涉及疾病、衰老、調控和生物多樣性等多個前沿領域，初步形成我國生物數據安全匯交管理和多組學數據平台的國家中心數據資源體系。資料庫建設整體情況以「Database Resources of the National Genomics Data Center, China National Center for Bioinformation in 2021」為題在國際學術期刊《核酸研究》(Nucleic Acids Research)在線發表。

NGDC的主要致力於以下三方面的工作：①圍繞中國人群普惠健康的精準醫學相關組學信息資源，完善建立中國人群基因組遺傳變異圖譜，形成中國人群精準醫學信息庫；②基於高通量測序的海量原始組學數據資源，建立符合國際標準的原始組學數據歸檔庫，形成中國原始組學數據的共享平台；③圍繞國家重要戰略生物資源，建立海量組學數據的整合、挖掘與應用體系，形成綜合性的多組學資料庫系統。

在這里插入圖片描述

常用資源：
生物項目資料庫（BioProject）：是收集與共享生物學研究項目信息的資源庫，涵蓋的項目類型包括常規組學研究的基因組、轉錄組、表觀組和宏基因組等，並針對大型項目提供高效、安全、專業化的項目分級管理。
生物樣本資料庫（BioSample）：是收集與與共享生物樣品信息的資源庫，提供生物樣品單結構化描述信息遞交和發布，涵蓋的樣品類型包括人、動物、植物、微生物（含環境微生物）、病毒等，提供批量數據上傳和離線數據遞交服務。通常一個BioProjiect對應一個BioSample，如果多個樣本可以批量設置BioSample，也就是一個BioProject對應多個Biosample。
組學原始數據歸檔庫（GSA）：植物/動物
組學原始數據歸檔庫（GSA-Human）：人類遺傳資源數據，需要備案
多元數據歸檔庫（OMIX）：如要共享的代謝組數據，影像，Excel等，上述兩個庫不能存放的，上傳到這個庫。
生物工具庫（Biocode）：存放代碼，部分替代github
基因組序列資料庫(GWH)：類似於NCBI 的genebank, 基因組拼接組裝完的數據可以上傳到這里
基因組變異庫（GVM）：等同於NCBI DDSNP（19年後只接受人的），包括人動物作物的單核苷酸多態性變異，call SNP 變異的數據上傳這里
生物資料庫目錄（DBCommons ）：根據引用（平均年引用）評價一些資料庫，如DVide和KEGG等
基因表達資料庫（GEN）：等同於國際上的GO
甲基化資料庫（MethBank）

二、NGDC的發展歷程
生物信息的數據要海量整合後才會有價值，割裂的資料庫只完成了「存」卻難以走向「使用」, 為了解決我國基因組數據存管用難、數據流失嚴重、核心基因組科學信息資源先「出口」再「進口」的問題，國家基因組科學數據中心應運而生。從2016年到2022年，短短6年的時間，NGDC已經發展成為全球主要的生物數據中心。
在這里插入圖片描述
在這里插入圖片描述

三、什麼是GSA？
組學原始數據歸檔庫（Genome Sequence Archive，簡稱GSA）是組學原始數據匯交、存儲、管理與共享系統，是國內首個被國際期刊認可的組學數據發布平台, 主要匯交實驗信息（Experiment Metadata）、測序反應信息（Run Metadata）信息以及歸檔測序文件數據（Sequence Data file）。

GSA的系統建設遵循了國際核酸序列共享聯盟（InternationalNucleotide Sequence Database Collaboration,INSDC）的相關標准，並作為INSDC的補充，旨在減輕國際相關資料庫數據存貯及數據傳輸的壓力；立足中國，服務全球。由於中國國際網路出口帶寬的瓶頸問題，數據傳輸效率低下。以中國科學院北京基因組研究所的150Mbs出口帶寬為例，向NCBI資料庫遞交1TB的數據需要花費2周以上的時間。GSA的建立可以讓國人享受更快的傳輸速度，更貼心的服務！

截至2022年4月，GSA已為國內外多個單位提供免費數據存儲服務，累計用戶遞交項目信息超過572,259個，用戶提交的測序數據量超過13.23PB。
在這里插入圖片描述

四、為什麼選擇上傳數據到GSA？
上傳GSA資料庫的幾大理由:

1.符合數據戰略安全要求；
2. 是國內首個被國際期刊認可的組學數據發布平台；
3.界面可切換為中文，契合大家閱讀習慣；
4.人性化設置，例如公布日期可隨時修改，數據未公開前可一鍵分享給審稿人查看，數據上傳信息修改、增添方便等等；
5.多途徑協助數據上傳, 上傳數據快 (qq群全天候解答疑問，優盤寄送或工作人員上門拷貝等綠色上傳通道)。
3. GSA立足於中國，極大方便了中國科學家的數據遞交，同時遵循INSDC聯盟數據標准，立心於服務全球，為全世界的科研領域共享貢獻數據。

簡單來說就是：有底氣、被認可、更快、更方便

五、如何上傳測序原始數據至GSA？（重點！！附詳細步驟！！）
1. 准備要上傳的數據
原始數據，fastq、bam文件，網站只接受gzip和bzip2壓縮格式
在這里插入圖片描述

2. 計算MD5碼
MD5碼主要是用來校驗遞交的數據在網路傳輸過程中是否損壞或丟包，它是由數字和英文字母組成的長度為 32 的定長字元串，一般測序公司返回的數據中會有。我們也可以通過以下方式進行計算MD5碼：

Linux 用戶使用 $ md5sum 命令計算；（輸入md5sum 加文件名）
代碼如下（示例）：

在這里插入圖片描述

Mac 用戶使用$ md5 命令計算；
Windows 用戶使用第三方工具進行計算，例如 winmd5free。
3.進入NGDC主頁，登入賬戶
首先進入我們NGDC主頁：（https://ngdc.cncb.ac.cn/）–點擊登入；

在這里插入圖片描述如果是第一次使用要注冊賬戶：
在這里插入圖片描述在這里插入圖片描述

4. 填寫數據信息
賬戶注冊完以後，就可以登入賬戶按照以下原則進行數據信息錄入。簡單來說就是填寫你要上傳數據的信息，分為以下三步①先創建BioProject ②創建BioSample ③創建GSA（先創建experiment 再創建run）。只填寫*的必填部分即可。可能大家不太理解BioProject, BioSample，experiment, run。舉個例子，假如我有以四個時間點Ck，12h，24h，48h，每個時間點三個生物學重復，取樣測的轉錄組數據。那麼我就有12個樣本BioSample，12個experiment，12個run，或者一個experiment對應多個run也可以。

化合物甲基化資料庫

基本介紹

與化合物甲基化資料庫相關的內容