当前位置:首页 » 数据仓库 » 化合物甲基化数据库
扩展阅读
webinf下怎么引入js 2023-08-31 21:54:13
堡垒机怎么打开web 2023-08-31 21:54:11

化合物甲基化数据库

发布时间: 2023-04-28 05:26:51

1. 生物甲基化详细资料大全

与甲基化有关主要有三种辅酶:S-腺甘加硫胺基酸,N-甲基四氢叶酸衍生物和B12(甲基类咕啉)衍生物。通过三种辅酶,把甲基转移给胺、苯酚和硫醇,生成N-、O-和S-甲基衍生物。这三种辅酶中,对外源性化合物的甲基化,以搏闹没S-腺苷甲硫酸最重要。它是由L-甲酸胺基酸和ATP合成的。

基本介绍

  • 中文名 :生物甲基化
  • 外文弯租名 :biomethylation
  • 含义 :生物体的一种解毒反应。
  • 逆过程 :逆过程为生物反甲基化作用
biomethylation 生物甲基化 是生物体的一种解毒反应。 这种转化的逆过程为生物反甲基化作用。 指对于脱氧核糖核酸(DNA)的某些特定部位上碱基进行甲基化的过程。 通常能进行甲基化的物质是一些亲电子化合物(如二甲酯等),其分子中都带有一个或多个活性烷基(活性甲基),可转移到DNA分子中的碱基上或主基纳链的磷酸基上。碱基中最容易被甲基化的是鸟嘌呤,特别是鸟嘌呤的O6和N7,甲基化后成为O6-甲基鸟嘌呤或N7-甲基鸟嘌呤,可使复制发生错配。

2. 如何通过结构式查询该化合物信息

通常学化学的朋友,需要画些简单的分子结构图或者反应式,用chemical draw,比较的麻烦,而在常用的word、wps中来画则比较方便。首先,我们想好结构布局图,然后先编辑好需要的分子结构的字母以及分布然后选择工具栏上的"插入"选择"形状",选择需要的图形,如直线,然后在链端中间将直线放进去调整好间距即可。

一、原始文献追溯法
从化合物相关的化学文献中去寻找,最初发表这个化合物的那篇化学论文,肯定有结构式,文献查找方法主要依赖于SCIfinder。文献包括中文文献、英文和其他语言种类的文献。最直接最管用的方法。
二、软件查询法
例如chemdraw,名称转化为结构。chemdraw 里面有名称和结构的转换在structure 的选项里,这个主要是针对一些常见的化合物。
其他转件待补充。
三、CAS号搜索法
直接搜索,找到CAS号,然后去搜索结构,或者用个化学软件,把名称打进去

3. 甲基化测序的甲基化测序服务流程

1. 甲基化DNA免疫共沉淀MeDIP;
2. 测序文库构建 双链DNA末端修复及3’末端加’A’ 使用特定的测序接头租丛连接DNA片段两端 高保真聚合酶扩增构建的测序文库;
3. DNA成簇Cluster扩增;
4. 高通量测序Illumina Genome Analyzer IIx;
5. 数据分析 原始数据读取 与数据库比对并进行注释 确定甲基化位点 深层次数据分析;
6. 提供实验报告 原始数据报告Fasta-Q格式包含所有测序序列信息碱基读取质量评估 基本数据分析报告Excel表格包含有效序列的序列信息、与参弊颤樱考基因组比对后的注释信息等。 高级数据分析应客户要求定制如甲基化区域enriched region鉴定分析两样本间甲基化水平有差异的区域并注释结洞基合表达谱分析其对基因的表达调控。

4. 甲基化反应详细资料大全

甲基化反应有机化合物分子中的 氢 被甲基(-CH3)取代的反应。

methylation 有机化合物分子中的 被甲基(-CH3)取代的反应。 苯与卤甲烷在三氯化铝等催化剂作用下可发生甲基化反应生成甲苯。由于甲颤简升苯比苯更易反应,因此一般难停留在一取代阶段,往往进一步甲基化,生成多甲基苯。茄老 醇和酚羟基中的氢可被甲基取代,生成甲基醚,用此方法可保护羟基。 最常用的甲基化试剂是碘甲烷和硫酸二甲酯。咐枯 胺与卤甲烷反应,氮上的氢被甲基取代,并且可进一步甲基化,直至彻底甲基化生成四级铵盐。

5. 国际着名的三大蛋白质数据库

国际着名的三大蛋白质数据库有UniProt数据库、The Human Protein Atlas数据库、PhosphoSitePlus数据库。

1、UniProt数据库

蛋白组学常用数据库UniProt(全称UniProt Protein Resource),建立于1986年,由Swiss-Protein、TrEMBL、PIR-PSD三大蛋白质数据库联合成立的,其信息量丰富、资源广泛,是目前公认的首选免费蛋白质数据库。

2、The Human Protein Atlas数据库

The Human Protein Atlas内含近30000种人类蛋白质的组织和细胞分布信息,并提供免费查询。

瑞典Knut&Alice Wallenberg基金会利用免疫组化技术,检查每一种蛋白质在人类48种正常组织,20种肿瘤组织,47个细胞系和12种血液细胞内的分布和表达,其结果用至少576张免疫组化染色图表示,并经专业人员校对和标引,保证染色结果具有充分的代表性。

3、PhosphoSitePlus数据库

PhosphoSitePlus数据库是一个由CST和NIH联合开发的免费资源数据库,总结归纳了海量通过科学研究发现的蛋白修饰位点,包括磷酸化、甲基化、乙酰化、泛素化等,并且包括一些CST公司发现但未发表的蛋白修饰位点。

该数据库是动态的、开放的、高度互动并持续更新的。它有助于研究PTMs在正常和病理细胞/组织中的作用,同时它也是发现新的疾病标志物和药物靶点的有力工具。


性能及历史

蛋白质数据库(HPDB),建于2005年5月,动态展示生物大分子立体结构,鼠标点击放大分子结构、原子定位、测定原子之间距离,可用于教学或科研。服务对象是能够熟练使用中文的生命科学、医学、药学、农学、林学等领域的大中专学生、教师及科技工作者。

分子结构特征描述采用汉语,同时提供英文原文以供考证。对于善于使用英文的读者,我们提倡直接访问RCSB PDB,一来可以减少网络拥挤,二来可以减少由于HPDB的翻译不妥带来的不便。

蛋白质数据库(HPDB)对每个蛋白质分子结构说明部分做了中文翻译(最新加入数据库的分子除外),内容包括分子结构定性描述、样品的来源、表达载体、宿主、化学分析方法、分子结构组成成分等。这些信息并同蛋白质分子结构数据存储于数据库,因此HPDB支持中文查询。

蛋白质数据库(HPDB)虽然翻译了“分子结构说明”部分,但为了保证数据的可靠性和准确性,HPDB对一级结构序列及大分子结构坐标数据等未做任何改动,数据库保持RCSB PDB核实后的原始实验数据文件,并保持PDB文件格式和蛋白质分子编号。

6. 深度学习给生物学带来了哪些改变

深度学习研究及其在生物医药领域的潜在应用
深度学习已经在各种生物学应用中取得成功。在本节中,我们回顾了在各个研究领域进行深度学习的挑战和机会,并在可能的情况下回顾将深度学习应用于这些问题的研究(表1)。我们首先回顾了生物标志物开发的重要领域,包括基因组学,转录组学,蛋白质组学,结构生物学和化学。然后,我们回顾一下药物发现和再利用的前景,包括使用多平台数据。
生物标志物。生物医学的一个重要任务是将生物学数据转化为反映表型和物理状态(如疾病)的有效生物标志物。生物标志物对于评估临床试验结果[18]以及检测和监测疾病,特别是像癌症这样的异质性疾病,是至关重要的[19,20]。识别敏感特异性生物标志物对于现代转化医学来说是一个巨大的挑战[21,22]。计算生物学是生物标志物发展。事实上,从基因组学到蛋白质组学都可以使用任何数据来源;这些在下一节中讨论。
基因组学。新一代测序(NGS)技术已经允许生产大量的基因组数据。这些数据的大部分分析都可以用现代计算方法在计算机上进行。这包括基因组的结构注释(包括非编码调控序列,蛋白质结合位点预测和剪接位点)。
基因组学的一个重要分支是宏基因组学,也被称为环境,生态基因组学或社区基因组学。NGS技术揭示了未经培育且以前没有得到充分研究的微生物的自然多样性。
宏基因组学中有几个生物信息学挑战。一个主要挑战是序列数据的功能分析和物种多样性的分析。深信念网络和经常性神经网络的使用已经允许通过表型分类宏基因组学pH数据和人类微生物组数据。 与基线方法相比,这些方法并没有提高分类准确性作为强化学习,但确实提供了学习数据集的分层表示的能力.[23]但是,Ditzler等强调DNN可以改善现有的宏基因组学分类算法,特别是在大数据集和适当选择网络参数的情况下。
表1. 深度学习技术应用于不同类型生物医学数据的总结

应用

数据源

研究目的

DL技术

准确率

利用深度学习增强癌症诊断和分类[28]

13种不同的癌症基因表达数据集(13 different gene expression data sets of cancers)

癌症检测,癌症类型分类

稀疏和堆栈自动编码器+ Softmax回归

对于每个数据集的准确度都比基准更好

深度学习组织调节拼接代码[32](Deep Learning of the Tissue-Regulated Splicing Code)

从RNA-Seq数据分析11 019个小鼠替代外显子(11 019 mouse alternative exons profiled from RNA-Seq data)

拼接模式识别

自动编码器+ DNN(3层)+薄荷(超参数选择)

AUC优于基线准确度

深卷积神经网络注释基因表达模式的小鼠脑[30]

由Allen Institute for Brain Science的小鼠脑的四个发育阶段的ISH图像

基因表达注释

CNN(Overfeat)

AUC=0.894

多模式深度学习方法的多平台癌症数据的综合数据分析[52]

卵巢癌和乳腺癌数据集(ovarian and breast cancer data sets)

聚集癌症患者

DBNs

lncRNA-MFDL:通过融合多个特征和使用深度学习鉴定人类长的非编码RNA[34]

Gencode和RefSeq的蛋白质编码和非编码序列(protein-coding and noncoding sequences from Gencode and RefSeq)

鉴定长的非编码RNA

lncRNA-MFDL(深层堆叠网络,每个单元DNN)

ACC = 97.1%

用于宏基因组分类的多层和递归神经网络[23]

pH微生物组测序数据集和人微生物组测序数据集(pH microbiome sequencing data set and human microbiome sequencing data set)

宏基因组分类

MLP, DBN, RNN

comparison

Multi-Level Gene/MiRNA Feature Selection using Deep Belief Nets and Active Learning[27]

来自6种癌症的MiRNA表达数据(MiRNA expression data from 6 type of cancers)

Gene/MiRNA特征选择(基因表达)

MLFS(DBN +特征选择+无监督主动学习)(MLFS (DBN + feature selection + unsupervised active learning))

F1 = 84.7%

成对输入神经网络用于目标配体相互作用预测[45]

sc-PDB数据库(sc-pdb:用于鉴定蛋白质中“可药用”结合位点的变化和多样性的数据库)

蛋白质 - 配体预测

PINN (SVD + Autoencoder/RBM)

AUC = 0.959

非编码变量与深度学习序列模型的预测效应[49]

来自ENCODE和Roadmap Epigenomics项目的160种不同TF,125种DHS谱和104种组蛋白标记谱的690 TF结合谱

从序列中预测非编码变异效应

DeepSEA (CNN)

AUC = 0.923 (histone)

通过深度学习预测DNA和RNA结合蛋白的序列特异性[48]

506 ChIP-seq实验,DREAM5 TF-DNA基序识别挑战

DNA和RNA结合蛋白的特异性分类

DeepBind(CNN)

train, AUC = 0.85; validation,
AUC > 0.7

具有双模深信道网络的蜂窝信号系统的跨物种学习[36]

来自SBV IMPROVER挑战的磷酸化蛋白质组学数据

跨物种学习(模拟细胞信号系统)

bDBN (bimodal DBN) and
sbDBN (semirestricted bimodal
DBN)

AUC = 0.93

表达数量性状基因(eQTL)的鉴定与阐明及其调控机制的深入研究[35]

GEUVADIS(来自从参与1000基因组项目的个体中提取的337个淋巴母细胞系的选择的RNA-Seq和全基因组范围的SNP-阵列数据的组合)

确定eQTL

MASSQTL(DNN)

AUC = 0.85

建立RNA结合蛋白靶点结构特征的深度学习框架[43]

源自doRiNA的24个数据集(转录后调节中的RNA相互作用数据库)

预测RNA结合蛋白的结合位点(RBP靶标识别)

DBN(多模式DBN)

AUC = 0.983 on PTB HITS-CL

DeepCNF-D:通过加权深度卷积神经场预测蛋白质有序/无序区域[42]

来自CASP的CASP9, CASP10数据集(蛋白质结构预测的关键评估)

预测蛋白质有序/无序区域

DeepCNF (CRF + CNN)

AUC = 0.855 on CASP9
AUC = 0.898 on CASP10

用深度神经网络分割微阵列[29]

两个数据集,来自2006年Lehmussola等人的微阵列图像

微阵列分割

CNN

MAE = 0.25

深度学习药物引起的肝损伤[46]

四个数据集,化合物,化学结构注释DILI阳性或DILI阴性(four data sets, compounds, chemical structure annotated DILI-positive or DILI-negative properties)

药物性肝损伤预测

RNN(递归神经网络)

AUC = 0.955

从头算蛋白质二级结构预测的深度学习网络方法[38]

训练,Protein Data Bank; 验证,CASP9,CASP10(蛋白质结构预测的关键评估)

从头算蛋白质二级结构预测

DNSS(多模RBM)

Q3 = 90.7%, Sov = 74.2%

蛋白质接触图预测的深层架构[39]

ASTRAL database

蛋白质接触图预测

RNN + DNN

ACC ∼ 30%

用深机器学习网络建模药物样分子的环氧化作用[47]

Accelrys代谢物数据库(AMD):389个环氧化分子,811个非氧化分子(Accelrys Metabolite Database (AMD): 389 epoxidized molecules, 811 nonepoxidized molecules)

建模分子的环氧化性质

CNN

AUC better than baseline accuracy

DNdisorder:使用增强和深度网络预测蛋白质紊乱[41]

DISORDER723, CASP9, CASP10

预测蛋白质有序/无序区域

RBM

AUC better than baseline
accuracy

Basset:用深度卷积神经网络学习可访问基因组的规则代码[50]

来自ENCODE和Epigenomics Roadmap项目的164个细胞类型的DNasel-seq数据

学习DNA序列的功能活动

CNN

AUC = 0.892

a首字母缩写词:CNN=卷积神经网络,DNN=深度神经网络,RNN=递归神经网络,DBN=深信念网络,RBM=限制玻尔兹曼机器,MLP=多层感知器,MLFS=多级特征选择,PINN= 网络,CRF=条件随机场。

转录。转录组学分析利用各种类型转录物(信使RNA(mRNA),长非编码RNA(lncRNA),微小RNA(miRNA)等)丰度的变化来收集各种功能信息,从剪接代码到各种疾病的生物标志物。
转录组学数据通常从不同类型的平台(各种微阵列平台,测序平台)获得,其不同之处在于测量的基因组和信号检测方法。许多因素导致基因表达数据的变异性。因此,即使对于单个平台分析也需要标准化。 跨平台分析需要规范化技术,这可能是一个重大挑战。由于DNN具有较高的泛化能力,因此特别适合于跨平台分析。他们也能很好地处理基因表达数据的其他一些主要问题,比如数据集的大小以及对降维和选择性/不变性的需求,下面我们将回顾几个已经使用的DNN 用不同类型的基因表达数据来获得不同程度的成功。
表格数据应用程序。基因表达数据可以表示的一种方式是作为矩阵的表格形式,其包含关于转录物表达的定量信息。这些数据是高维度的,由于数据中的信噪比损失,使得统计分析成为问题。[25]
高维数据可以通过两种方式处理:
I. 降维:
A.特征提取,例如用SVM或随机森林算法;
B.特征子集选择;
C.途径分析;
II. 使用对高维度较不敏感的方法,如随机森林或深层信念网络。
诸如主成分分析(PCA),奇异值分解,独立分量分析或非负矩阵分解等方法是常见的前沿方法。然而,上述方法将数据转换成许多难以用生物学解释的组件。此外,这种降维方法基于基因表达谱提取特征而不管基因之间的相互作用。通路分析可以减少变量的数量,减少错误率并保留更多的生物相关信息。[25,26]
深度学习在处理高维基质转录组学数据方面也取得了一些成功。在另一种方法中,将基因表达的特征与非编码转录物如miRNA的区域一起提取; 这是通过使用深度信念网络和主动学习来实现的,其中使用了深度学习特征提取器来减少六个癌症数据集的维度,并且胜过了基本特征选择方法[27]。主动学习与分类的应用提高了准确性,并且允许选择与癌症相关的特征(改进的癌症分类),而不仅仅基于基因表达谱。使用miRNA数据的特征选择是使用与先前选择的特征子集的目标基因的关系实施的。
在另一个深度学习应用中,Fakoor等人利用自编码器网络进行推广,并将其应用于使用从具有不同基因集合的不同类型的微阵列平台(Affimetrix家族)获得的微阵列基因表达数据的癌症分类[28]。他们通过PCA和非监督非线性稀疏特征学习(通过自动编码器)结合使用降维来构建用于微阵列数据的一般分类的特征。癌症和非癌细胞分类的结果显示出了重要的改进,特别是使用监督微调,这使得特征不那么通用,但即使对于没有跨平台标准化的数据也能获得更高的分类准确性。自动编码器的全球泛化能力有助于使用不同微阵列技术收集的数据,因此可能对来自公共领域的数据进行大规模综合分析有前途。
图像处理应用。基因表达也可以以可视形式存储为图像,例如来自微阵列的图像荧光信号或RNA原位杂交荧光或放射性信号。 在一些应用中,以图像处理性能优越着称的CNN已经显示出改善这些图像分析的潜力。
在微阵列分析中,由于斑点大小,形状,位置或信号强度的变化,检测信号和识别荧光斑点可能是具有挑战性的,并且荧光信号强度通常对应于基因或序列表达水平差。在对这个问题的深度学习技术的一个应用中,CNN被用于微阵列图像分割,并且在准确性方面显示出类似于基准方法的准确度的结果,但是训练更简单并且对计算源的要求更少。[29]
将CNN应用于基于图像的基因表达数据的另一个机会是RNA原位杂交,这是一种繁琐的技术,当允许这样的操作时,能够使基因表达在一组细胞,组织切片或整个生物体中定位和可视化。这种方法促进强大的纵向研究,说明发展过程中的表达模式的变化。它被用于构建详细的Allen DevelopmentMouse Brain Atlas,其中包含超过2000个基因的表达图谱,每个基因在多个脑部分中进行说明。过去,这些手动标注是耗时的,昂贵的,有时也是不准确的。然而,最近,Zeng等人使用深度预训练CNN进行自动注释[30]。要做到这一点,神经网络模型训练原始自然原位杂交图像的不同层次的发展中国家的大脑没有关于坐标(空间信息)的确切信息;这种技术在四个发展阶段的多个大脑水平上实现了卓越的准确性。
剪接。深度学习的另一个应用领域是剪接。剪接是在真核生物中提供蛋白质生物多样性的主要因素之一;此外,最近的研究显示“拼接代码”与各种疾病之间的联系[31]。然而,现代科学仍然不能全面地理解控制剪接调控的机制。剪接调节的现代概念包括转录水平,特定信号调节序列元件(剪接增强子或沉默子)的存在,剪接位点的结构和剪接因子的状态(例如特定位点的磷酸化可能改变剪接因子活性)。所有这些因素使分析变得复杂,因为它们之间存在大量元素和复杂的非线性相互作用。现有的拼接预测软件需要高通量测序数据作为输入,并且面临着原始读取比常规基因短的问题,以及基因组中假性基因的高重复水平和存在。因此,拼接机制的分析算法很慢,需要高度的组合计算来源,深度学习可能会在这方面提供改进。在使用五个组织特异性RNA-seq数据集的一个深度学习应用中,使用隐变量来开发DNN以用于基因组序列和组织类型中的特征,并且被证明优于贝叶斯方法预测个体内和组织间的组织剪接外显子拼接的转录本百分比的变化(拼接代码度量)[32]。
非编码RNA。非编码RNA是生物学中的另一个问题,需要复杂的计算方法,如深度学习。非编码RNAs非常重要,涉及转录,翻译和表观遗传学的调控[33],但是它们仍然难以与编码蛋白质的RNA区分开来。对于短的非编码RNA,这个任务已经很好地解决了,但是对于lncRNA来说这是相当具有挑战性的。lncRNAs组成异构类,可能含有推定的复制起点(ORF),短的蛋白质样序列。开发了一种新的深层次的学习方法,称为lncRNAMFDL,用于鉴定lnc-RNAs,使用ORF,k相邻碱基,二级结构和预测的编码结构域序列等多种特征的组合[34]。该方法使用从Gencode(lncRNA)和Refseq(蛋白质编码mRNA数据)的序列数据中提取的五个单独特征,并且在人类数据集中导致97.1%的预测准确性。
表达量性状基因座分析。最后,数量性状基因座(QTL)分析有潜力进行深入的学习。 QTL分析鉴定含有多态性的遗传基因座,所述多态性导致复杂的多基因性状(例如,体重,药物反应,免疫应答)的表型变异。显示遗传变异的一个这样的“性状”是给定组织和/或条件中任何给定基因的表达或转录本丰度。表达QTL(eQTL)是影响转录本丰度的遗传变异的基因座。 eQTL分析已经导致了对人类基因表达调控的洞察力,但面临着许多挑战。在局部调节表达的eQTL(顺式-eQTL)相对容易用有限数量的统计测试来鉴定,但是调节基因组中其它位置的基因表达的位点(trans-eQTL)更难以检测到。最近,为了解决使用各种编码的生物特征(诸如物理蛋白质相互作用网络,基因注释,进化保守,局部序列信息以及来自ENCODE项目的不同功能元件)的反式eQTL预测问题的深度学习方法MASSQTL[35]被提出。DNN利用来自其各自交叉验证折叠的9个DNN模型,优于其他机器学习模型,并且提供了对基因表达的调控架构的基础的新机制。深解码系统也被用来对trans-eQTL特征向量进行聚类,然后通过t-SNE降维技术进行可视化。
蛋白质组学。与转录组学相比,蛋白质组学是一个相当欠发达的研究领域,数据依然稀少,用于分析的计算方法较少。即使有相似的信号编码和传输机制,人类蛋白质组学数据的缺乏以及将模型生物体结果转化为人类的困难也使分析变得复杂。
深度学习可以以多种方式使蛋白质组学受益,因为一些方法不需要像其他机器学习算法那样的大量培训案例。深度学习方法的其他优点是他们建立数据的分层表示,并从复杂的相互作用中学习一般特征,从而有利于蛋白质的蛋白质组学和网络分析。例如,使用磷酸化数据,双峰深信念网络已被用于预测大鼠细胞对相同刺激的刺激的细胞反应[36]。与传统的管线相比,开发的算法获得了相当的准确性。
结构生物学和化学。结构生物学包括蛋白质折叠分析,蛋白质动力学,分子建模和药物设计。二级和三级结构是蛋白质和RNA分子的重要特征。对于蛋白质,适当的结构测定对于酶功能预测,催化中心和底物结合的形成,免疫功能(抗原结合),转录因子(DNA结合)和转录后修饰(RNA结合)是重要的。丧失适当的结构会导致功能丧失,并且在某些情况下会导致可能导致神经退行性疾病(如阿尔茨海默病或帕金森病)的异常蛋白质的聚集。[37]
基于复合同源性的比较建模是预测蛋白质二级结构的一种可能方式,但是受现有注释良好的化合物的量限制。另一方面,机器学习从头预测是基于公认的具有公知结构的化合物的模式,但是还不够精确以至于不能实际使用。从头开始使用深度学习方法通过使用蛋白质测序数据改进了结构预测[38]。同样,深度学习已经被应用于使用ASTRAL数据库数据和复杂的三阶段方法来预测二级结构元素和氨基酸残基之间的接触和取向[39]。所使用的方法是分析偏倚和高度可变数据的有效工具。
三维结构的不变性在功能上也是重要的。然而,有几种蛋白质没有独特的结构参与基本的生物过程,如细胞周期的控制,基因表达的调控,分子信号传递。此外,最近的研究显示一些无序蛋白质的显着性[37]; 许多癌基因蛋白具有非结构域,并且错误折叠蛋白的异常聚集导致疾病发展[40]。这种没有固定三维结构的蛋白被称为固有无序蛋白(IDP),而没有恒定结构的结构域被称为固有无序区(IDR)。
许多参数将IDP / IDR与结构化蛋白质区分开来,从而使预测过程具有挑战性。这个问题可以使用深度学习算法来解决,这些算法能够考虑各种各样的特征。2013年,Eickholt和Cheng发表了一个基于序列的深度学习预测指标DNdisorder,与先进的预测指标相比,改进了对无序蛋白质的预测[41]。后来在2015年,Wang等人提出了一种新的方法,DeepCNF,使用来自蛋白质结构预测的临界评估(CASP9和CASP10)的实验数据,能够准确预测多个参数,如IDPs或具有IDR的蛋白质。DeepCNF算法通过利用众多特征,比基线单从头(从头算)预测指标执行得更好[42]。
另一类重要的蛋白质是结合单链或双链RNA的RNA结合蛋白。 这些蛋白质参与RNA的各种转录后修饰:剪接,编辑,翻译调控(蛋白质合成)和聚腺苷酸化。RNA分子形成不同类型的臂和环,需要识别和形成RNA和蛋白质之间连接的二级和三级结构。RNA的二级和三级结构是可预测的,并且已经被用于建模结构偏好偏好和通过应用深度信念网络预测RBP的结合位点[43]。深度学习框架在真正的CLIP-seq(交联免疫沉淀高通量测序)数据集上进行了验证,以显示从原始序列和结构分布中提取隐藏特征的能力,并准确预测RBP的位点。
药物发现和再利用。计算药物生物学和生物化学广泛应用于药物发现,开发和再利用的几乎每个阶段。过去数十年来,不同的研究团体和公司在全球范围内开发了大量用于计算机模拟药物发现和目标延伸的计算方法,以减少时间和资源消耗。虽然存在许多方法[44],但是还没有一个是最优的(例如,无法执行通量筛选或者通过蛋白质类别进行限制),现在一些研究表明深度学习是一个重要的考虑方法(表1)。
药物发现的重要任务之一就是预测药物靶点的相互作用。 靶标(蛋白质)通常具有一个或多个与底物或调节分子的结合位点; 这些可以用于建立预测模型。 然而,包括其他蛋白质的成分可能会给分析带来偏见。成对输入神经网络(PINN)接受具有从蛋白质序列和靶分布获得的特征的两个载体的能力被Wang等人用来计算靶标-配体相互作用[45]。神经网络的这种优势比其他代表性的靶标-配体相互作用预测方法有更好的准确性。
药物发现和评估是昂贵,耗时且具有风险; 计算方法和各种预测算法可以帮助降低风险并节省资源。一个潜在的风险是毒性; 例如,肝毒性(肝毒性)是从生产中去除药物的常见原因。用计算方法预测肝毒性可能有助于避免可能的肝毒性药物。使用深度学习,可以有效地确定原始化学结构的化合物毒性,而不需要复杂的编码过程[46]。使用CNN也可以预测诸如环氧化的性质,这意味着高反应性和可能的毒性; 这是休斯等人首次实施的。通过使用环氧化分子和氢氧化物分子的简化分子输入线入口规格(SMILES)格式数据作为阴性对照[47]。
多平台数据(Multiomics)。使用多平台数据的能力是深度学习算法的主要优势。 由于生物系统复杂,具有多个相互关联的元素,基因组学,表观基因组学和转录组学数据的系统级整合是提取最有效且有生物学意义的结果的关键。整合过程在计算上不是微不足道的,但收益是生物标志物特异性和灵敏度比单一来源方法的增加。
计算生物学中需要分析组合数据的主要领域之一是计算表观遗传学。有联合分析基因组,转录组,甲基化组特征和组蛋白修饰提供了准确的表观基因组预测。
一些研究人员已经开发出深度学习方法,可用于分析来自多个来源的数据(表1)。Alipanahi等人开发了基于深度学习的方法DeepBind(tools.genes.toronto.e/deepbind/),以在各种疾病中计算核苷酸序列结合转录因子和RNA结合蛋白的能力,并表征单点突变对结合特性的影响。DeepBind软件受CNN启发,对技术不敏感; 相反,它与从微阵列到序列的定性不同形式的数据是相容的。CPU的实现也允许用户并行化计算过程[48]。在另一个基于CNN的应用程序中,Zhou和Troyanskaya设计了DeepSEA框架来预测染色质特征和疾病相关序列变异的评估。与其他计算方法不同,他们的算法能够捕获每个结合位点的大规模上下文序列信息,用于注释从头序列变异体[49]。开发了类似的CNN管线,揭示了序列变异对染色质调控的影响,并对DNase-seq(DNase I测序)数据进行了培训和测试[50]。一种名为Bassed的深度学习软件优于基线方法,并且在所有数据集上达到平均AUC0.892。最后,随着深层特征选择模型的发展,深度学习被用于识别主动增强器和促进器,该模型利用了DNN对复杂非线性相互作用进行建模的能力,并学习了高层次的广义特征[51]。模型从多平台数据中选择特征,并按照重要性进行排序。在这些应用中,深度学习方法是染色质性质的更敏感和更有力的预测因子,也是复杂生物标志物发展的关键。
癌症是一组异质性疾病的广泛名称,其中一些是由基因突变引起的,因此使用多平台数据的癌症分类可以揭示潜在的病理学。Liang等人开发了一个具有多平台数据的深层信念网络模型,用于癌症患者的聚类[52]。使用受限玻尔兹曼机对每种输入模式定义的特征进行编码。这种方法的一个优点是深层信念网络不需要具有正态分布的数据,因为其他聚类算法和遗传(生物)数据不是正态分布的。
最后,从自然语言处理的角度来看,深度学习在通过巨大的非结构化(研究出版物和专利)和结构化数据(知识注释图,如基因本体论[53]或Chembl[54])浏览时,通过检验假设的合理性。这些数据库一起形成了一个庞大的,多平台的数据集,如果结合起来,这些数据集将更加丰富和全面。
总之,现代生物数据的庞大规模,对于以人为本的分析来说太庞大而复杂。 机器学习,特别是深度学习与人类专业知识相结合,是将多个大型多平台数据库完全集成的唯一途径。 深度学习使人类能够做到以前无法想象的事情:具有数百万输入的图像识别,语音识别以及接近人类能力的语音自动化。 虽然深度学习和特别是无监督的深度学习仍处于起步阶段,特别是在生物学应用方面,但最初的研究支持它作为一种有希望的方法,尽管在实施中不受限制和挑战,但可以克服生物学数据的一些问题, 对数百万间接和相互关联的疾病机制和途径的新见解。

7. 国家基因组科学数据中心怎么用

sisichen �
关注
国家基因组科学数据中心(NGDC)---组学原始数据如何上传GSA 原创
2022-04-25 14:44:31

sisichen �

码龄4年

关注
文章目录
前言
一、什么是NGDC?
二、NGDC的发展历程
三、什么是GSA?
四、为什么选择上传数据到GSA?
五、如何上传测序原始数据至GSA?(重点!!附详细步骤!!)
1. 准备要上传的数据
2. 计算MD5码
3.进入NGDC主页,登入账户
4. 填写数据信息
第一步:建立Bioproject。
第二步:建立BioSample。
第三步:创建GSA。
进入GSA数据库
新建GSA
填写信息
下载表格文件
5. 数据上传:
(1). 通过FTP软件 上传(上传需要流量!!如果小数据可以用)
(2). 通过服务器上传(推荐!!):如果实验室有服务器的话,推荐服务器上传,步骤如下:(服务器上要先安装ftp )
(3)邮寄硬盘
6.等待审核
总结
前言
在发表文章之前我们需要将测序的原始数据上传到一个公共库,并在文中提供accession number,实现数据的公开共享,这是国际惯例。以前我们上传数据时只能上传到美国国立生物技术信息中心(NCBI)、欧洲生物信息学研究所(EBI)、日本核酸数据库(DDBJ),现在中国科学院北京基因组研究所(国家生物信息中心)国家基因组科学数据中心 (CNCB-NGDC)—中国的 “NCBI” 已经建立并日渐完善。组学原始数据归档库(GSA)是组学原始数据汇交、存储、管理与共享系统,是国内首个被国际期刊认可的组学数据发布平台。GSA已获得多个国际期刊认可,并已被国际着名出版商Elsevier收录为指定的基因数据归档库,其权威性得到国内外100余家学术杂志的认可。GSA已通过FAIRsharing认证,获得Wiley出版集团认可,因此我们不用担心上传数据到GSA不被期刊认可,也不用再舍近求远上传数据到NCBI,作为中国人,我们一定要支持我们NGDC中的数据库。本文介绍了如何上传测序原始数据到GSA,附详细操作步骤。

一、什么是NGDC?
国家基因组科学数据中心(https://ngdc.cncb.ac.cn/;NGDC)于2019年6月5日经科技部、财政部通知公布,由鲍一明研究员作为学术带头人,以中国科学院北京基因组研究所(国家生物信息中心)作为依托单位,联合中国科学院生物物理研究所和中国科学院上海营养与健康研究所共同建设。中心面向我国人口健康和社会可持续发展的重大战略需求,建立生命健康组学大数据储存、整合与挖掘分析研究体系,研发生物多样性与健康大数据汇交、应用与共享平台,发展大数据系统解析与转化应用的新技术和新方法,建设支撑我国生命科学发展、国际知名的基因组科学数据中心。

2020年中心开发了8个全新数据库 (2019nCoVR,Aging Atlas,BrainBase,CGIR,GTDB,LncExpDB,scMethBank和TransCirc),更新和丰富了多个核心数据库资源 (BioProject,BioSample,GSA,GWH,GVM,GEN和生物多样性资源等),涉及疾病、衰老、调控和生物多样性等多个前沿领域,初步形成我国生物数据安全汇交管理和多组学数据平台的国家中心数据资源体系。数据库建设整体情况以“Database Resources of the National Genomics Data Center, China National Center for Bioinformation in 2021”为题在国际学术期刊《核酸研究》(Nucleic Acids Research)在线发表。

NGDC的主要致力于以下三方面的工作:①围绕中国人群普惠健康的精准医学相关组学信息资源,完善建立中国人群基因组遗传变异图谱,形成中国人群精准医学信息库;②基于高通量测序的海量原始组学数据资源,建立符合国际标准的原始组学数据归档库,形成中国原始组学数据的共享平台;③围绕国家重要战略生物资源,建立海量组学数据的整合、挖掘与应用体系,形成综合性的多组学数据库系统。

在这里插入图片描述

常用资源:
生物项目数据库(BioProject):是收集与共享生物学研究项目信息的资源库,涵盖的项目类型包括常规组学研究的基因组、转录组、表观组和宏基因组等,并针对大型项目提供高效、安全、专业化的项目分级管理。
生物样本数据库(BioSample):是收集与与共享生物样品信息的资源库,提供生物样品单结构化描述信息递交和发布,涵盖的样品类型包括人、动物、植物、微生物(含环境微生物)、病毒等,提供批量数据上传和离线数据递交服务。通常一个BioProjiect对应一个BioSample,如果多个样本可以批量设置BioSample,也就是一个BioProject对应多个Biosample。
组学原始数据归档库(GSA):植物/动物
组学原始数据归档库 (GSA-Human):人类遗传资源数据,需要备案
多元数据归档库(OMIX):如要共享的代谢组数据,影像,Excel等,上述两个库不能存放的,上传到这个库。
生物工具库(Biocode):存放代码,部分替代github
基因组序列数据库(GWH):类似于NCBI 的genebank, 基因组拼接组装完的数据可以上传到这里
基因组变异库(GVM):等同于NCBI DDSNP(19年后只接受人的),包括人动物作物的单核苷酸多态性变异,call SNP 变异的数据上传这里
生物数据库目录(DBCommons ):根据引用(平均年引用)评价一些数据库,如DVide和KEGG等
基因表达数据库(GEN):等同于国际上的GO
甲基化数据库(MethBank)

二、NGDC的发展历程
生物信息的数据要海量整合后才会有价值,割裂的数据库只完成了“存”却难以走向“使用”, 为了解决我国基因组数据存管用难、数据流失严重、核心基因组科学信息资源先“出口”再“进口”的问题,国家基因组科学数据中心应运而生。从2016年到2022年,短短6年的时间,NGDC已经发展成为全球主要的生物数据中心。
在这里插入图片描述
在这里插入图片描述

三、什么是GSA?
组学原始数据归档库(Genome Sequence Archive,简称GSA)是组学原始数据汇交、存储、管理与共享系统,是国内首个被国际期刊认可的组学数据发布平台, 主要汇交实验信息(Experiment Metadata)、测序反应信息(Run Metadata)信息以及归档测序文件数据(Sequence Data file)。

GSA的系统建设遵循了国际核酸序列共享联盟(InternationalNucleotide Sequence Database Collaboration,INSDC)的相关标准,并作为INSDC的补充,旨在减轻国际相关数据库数据存贮及数据传输的压力;立足中国,服务全球。由于中国国际网络出口带宽的瓶颈问题,数据传输效率低下。以中国科学院北京基因组研究所的150Mbs出口带宽为例,向NCBI数据库递交1TB的数据需要花费2周以上的时间。GSA的建立可以让国人享受更快的传输速度,更贴心的服务!

截至2022年4月,GSA已为国内外多个单位提供免费数据存储服务,累计用户递交项目信息超过572,259个,用户提交的测序数据量超过13.23PB。
在这里插入图片描述

四、为什么选择上传数据到GSA?
上传GSA数据库的几大理由:

1.符合数据战略安全要求;
2. 是国内首个被国际期刊认可的组学数据发布平台;
3.界面可切换为中文,契合大家阅读习惯;
4.人性化设置,例如公布日期可随时修改,数据未公开前可一键分享给审稿人查看,数据上传信息修改、增添方便等等;
5.多途径协助数据上传, 上传数据快 (qq群全天候解答疑问,优盘寄送或工作人员上门拷贝等绿色上传通道)。
3. GSA立足于中国,极大方便了中国科学家的数据递交,同时遵循INSDC联盟数据标准,立心于服务全球,为全世界的科研领域共享贡献数据。

简单来说就是:有底气、被认可、更快、更方便

五、如何上传测序原始数据至GSA?(重点!!附详细步骤!!)
1. 准备要上传的数据
原始数据,fastq、bam文件,网站只接受gzip和bzip2压缩格式
在这里插入图片描述

2. 计算MD5码
MD5码主要是用来校验递交的数据在网络传输过程中是否损坏或丢包,它是由数字和英文字母组成的长度为 32 的定长字符串,一般测序公司返回的数据中会有。我们也可以通过以下方式进行计算MD5码:

Linux 用户使用 $ md5sum 命令计算;(输入md5sum 加文件名)
代码如下(示例):

在这里插入图片描述

Mac 用户使用$ md5 命令计算;
Windows 用户使用第三方工具进行计算,例如 winmd5free。
3.进入NGDC主页,登入账户
首先进入我们NGDC主页:(https://ngdc.cncb.ac.cn/)–点击登入;

在这里插入图片描述如果是第一次使用要注册账户:
在这里插入图片描述在这里插入图片描述

4. 填写数据信息
账户注册完以后,就可以登入账户按照以下原则进行数据信息录入。简单来说就是填写你要上传数据的信息,分为以下三步①先创建BioProject ②创建BioSample ③创建GSA(先创建experiment 再创建run)。只填写*的必填部分即可。可能大家不太理解BioProject, BioSample,experiment, run。举个例子,假如我有以四个时间点Ck,12h,24h,48h,每个时间点三个生物学重复,取样测的转录组数据。那么我就有12个样本BioSample,12个experiment,12个run,或者一个experiment对应多个run也可以。