‘壹’ 生物信息学数据库之间的联系方式有
收集,维护,生物信息学数据库可以分为4大类:即基因组数据库、核酸和蛋白质一级结构数据库、生物大分子三维空间结构数据库。
‘贰’ 列举常用的生物信息学数据库及序列对比常用软件及特点
一般来说所用的分析工具有在线跟下载的 下面简要列举一些常用在线软件的使用 1、使用VecScreen工具,分析下列未知序列,输出序列长度、载体序列的区域、可能使用的克隆载体都有哪些。一、步骤:
打开google 首页,搜索VecScreen,进入VecScreen首页,复制序列,运行,View report。
二、结果:
输出序列长度918bp,
载体序列的区域456bp——854bp.
克隆载体:M13mp18 phage,pGEM-13Zf(+),pBR322,pRKW2。
2、使用相应工具,分析下列未知序列的重复序列情况,输出重复序列的区域、包含的所有重复序列的类型、重复序列的总长度及Masked Sequence。
一、步骤:
进入google首页,进入ICBI主页,对序列进行BLAST。得出序列是human的。
进入google首页,搜索RepeatMasker,进入RepeatMasker主页,进入RepeatMasking,复制序列,DNA source选择human,运行!点击超链接,在结果中选择
Annotation File :RM2sequpload_1287631711.out.html
3、使用CpGPlot/CpGReport/Isochore工具,分析下列未知序列,输出CpG岛的长度、区域、GC数量、所占的百分比及Obs/Exp值。一、步骤:
进入google首页,搜索CpGPlot,进入CpGPlot主页,program中选择cpgreport复制序列,运行!
二、结果:
CpG岛的长度:385bp
区域:48——432;
GC数量:Sum C+G=297,百分数=77.14
Obs/Exp:1.01
4、预测下面序列的启动子,输出可能的启动子序列及相应的位置。一、步骤:
进入google首页,进入ICBI主页,对序列进行BLAST。得出序列是human的
进入google首页,搜索Neural Network Promoter Prediction,进入主页,复制序列,选择eukaryote,运行!
二、结果:
位置:711—761 ,1388—1438,1755—1805;
5、运用Splice Site Prediction工具分析下面序列,分别输出内含子-外显子剪接位点给体和受体的区域及剪接处位置的碱基。一、步骤:
进入google首页,进入ICBI主页,对序列进行BLAST。得出序列是human的
进入google首页,搜索Splice Site Prediction,进入主页,复制序列。Organism选择Human or other。其他默认,运行!
二、结果:
供体:
受体:
6、对下面序列进行六框翻译,利用GENESCAN综合分析(首先确定给定序列的物种来源)哪个ORF是正确的,输出六框翻译(抓图)和GENESCAN结果(包括predicted genes/exons 和 predicted peptide sequence(s) 两个部分)。一、步骤:
进入google首页,进入ICBI主页,对序列进行BLAST。得出序列是Zea的
进入google首页;搜索NCBI,进入主页,选择all resources(A~Z),选择O,选择ORF finder。复制序列,默认,运行!
二、结果:ORF图
三、步骤:进入google首页,搜索GENESCAN,进入主页,Organism:Maize, ,其他默认,运行!
四、结果:
G7、进入REBASE限制性内切酶数据库,输出AluI、MboI、EcoI三种内酶的Recognition Sequence和Type。
一、步骤:进入google首页,google in English,搜索REBASE,进入主页, 分别输入AluI、MboI、EcoI,运行!
在MboI中选择第一个,EcoI选择第二个。
二、结果:
ENSCAN图
8、使用引物设计工具,针对下列未知序列设计一对引物,要求引物长度为20-25bp,扩增产物长度300-500bp,退火温度为50-60℃。请写出选择的一对引物(Forward Primer and Reverse Primer)、及相应的GC含量、引物的位点、Tm值和产物长度。一、步骤:进入google首页,搜索genefisher,进入主页,复制fasta格式,chechk input, sunmit, ; ;设置一下引物长度为20-25bp,扩增产物长度300-500bp,退火温度为50-60℃; 。
二、结果:
GC含量:
引物的位点:
Tm值:
产物长度:。
9、将下面的序列用NEBcutter 2.0工具分析,用产生平末端及有四个酶切位点的酶进行酶切,并用抓图提交胶图(view gel),要求1.4% agarose和Marker为100bp DNA Ladder。
一、步骤:
进入google首页,进入ICBI主页,对序列进行BLAST,得知是linear。
进入google首页,搜索NEBcutter 2.0,进入主页,选择linear,运行!选择custom digest, ,把“1”改为“4”,选择平末端,后digest。View gel。选择1.4% agarose和Marker为100bp。
二、结果:
然后就是蛋白质的了一般都在expasy里swiss-prot 适用于检索的 compute pi/mw 求理论分子量 分子量 protparam物理化学性质 protscale亲水性疏水性 peptidemass分析蛋白酶和化学试剂处理后的内切产物
NCBI(www.ncbi.nlm.nih.gov)-GenBank数据库
数据库相似性搜索——核酸序列与核酸数据库比较(BLASTN)
蛋白质序列与数据库中蛋白质序列比较(BLASTP)
两序列比对(Align two sequences)
DNA序列分析——ORF Finder(www.ncbi.nlm.nih.gov/gorf/gorf.html)
分析实验序列外显子部分——GENSCAN(http://genes.mit.e/GENSCAN.html)
分析实验序列的可能酶切位点——NEBcutter2.0 (http://tools.neb.com/NEBcutter2/index.php)
注: Custom digest -- view gel
限制性内切酶数据库——REBASE(http://rebase.neb.com/rebase/rebase.html)
设计引物扩增实验序列——Genefisher
Primer 3
蛋白质序列分析及结构预测:
1.预测蛋白质的分子量及等电点:ExPASy(Compute pI/Mw)
2.分析蛋白质的基本物理化学性质:ExPASy(ProtParam)
3.分析蛋白质的亲水性和疏水性:ExPASy(ProtScale)
4.分析蛋白质在各种蛋白酶和各种化学试剂处理后的内切产物:ExPASy(PeptideMass) [* :kinase K]
5.分析蛋白质的信号肽:ExPASy(SignalP)
6.预测蛋白质的二级结构:ExPASy(Jpred 3)
多物种分子系统发育分析:EMBL(www.ebi.ac.uk/embl/)--Toolbox--Clustal2W
人脂联素蛋白质序列:NP_004788
人类胰岛素生长因子IB前体:P05019
‘叁’ 生物信息学pfam是一级数据库还是二级数据库
根据需要从一级数据库中搜集对象的相关数据集合而成的就是二级数据库.
像genebank,EMBL这种都是不加选择的一级数据库,只要是实验获得的,不管什么东西的序列,哪怕是不完整的序列都能上传,而且它们的数据也有可能有重复.如果有某个人专门研究细菌的鉴定,需要用到正式被认可的16srDNA序列,为了研究方便,把这些一级数据库的各个种类细菌的公认标准16srDNA序列的数据进行整理,重新构建了一个数据库,这就是所谓的二级数据库.如果不构建,直接用一级数据库做blast,就会得出很多未被承认甚至不完整的序列,还要人工一个个看过去,找出公认的标准序列,这样就很麻烦.我举得例子在现实中就是韩国的EzTaxon.
‘肆’ in cell and developmental biology属于哪个数据库
in cell and developmental biology属于生物信息学数据库
生物信息数据库可以分为一级数据库和二级数据库。
一级数据库的数据都直接来源于实验获得的原始数据,只经过简单的归类整理和注释;
二级数据库是在一级数据库、实验数据和理论分析的基础上针对特定目标衍生而来,是对生物学知识和信息的进一步整理。国际上着名的一级核酸数据库有Genbank数据库、EMBL核酸库和DDBJ库等;蛋白质序列数据库有SWISS-PROT、PIR等;蛋白质结构库有PDB等。国际上二级生物学数据库非常多,它们因针对不同的研究内容和需要而各具特色,如人类基因组图谱库GDB、转录因子和结合位点库TRANSFAC、蛋白质结构家族分类库SCOP等等。
‘伍’ 什么时候需要利用生物信息学获取核酸序列信息
什么时候需要利用生物信息学获取核酸序列信息
1.序列比对
序列比对其意义是从核酸、氨基酸的层次来比较两个或两个以上符号序列的相似性或不相似性,进而推测其结构功能及进化上的联系。研究序列相似性的目的是通过相似的序列得到相似的结构或功能,也可以通过序列的相似性判别序列之间的同源性,推测序列之间的进化关系。序列比对是生物信息学的基础,非常重要。
序列比对中最基础的是双序列比对,双序列比较又分为全局序列比较和局部序列比较,这两种比较均可用动态程序设计方法有效解决。在实际应用中,某些在生物学上有重要意义的相似性不是仅仅分析单条序列,只能通过将多个序列对比排列起来才能识别。比如当面对许多不同生物但蛋白质功能相似时,我们可能想知道序列的哪些部分是相似的,哪些部分是不同的,进而分析蛋白质的结构和功能。为获得这些信息,我们需要对这些序列进行多序列比对。多重序列比对算法有动态规划算法、星形比对算法、树形比对算法、遗传算法、模拟退火算法、隐马尔可夫模型等,这些算法都可以通过计算机得以解决。
2.数据库搜索
随着人类基因组计划的实施,实验数据急剧增加,数据的标准化和检验成为信息处理的第一步工作,并在此基础上建立数据库,存储和管理基因组信息。这就需要借助计算机存储大量的生物学实验数据,通过对这些数据按一定功能分类整理,形成了数以百计的生物信息数据库,并要求有高效的程序对这些数据库进行查询,以此来满足生物学工作者的需要。数据库包括一级数据库和二级数据库,一级数据库直接来源于实验获得的原始数据,只经过简单的归类整理和注释;二级数据库是对基本数据进行分析、提炼加工后提取的有用信息。
分子生物学的三大核心数据库是GenBank核酸序列数据库,SWISS-PROT蛋白质序列数据库和PDB生物大分子结构数据库,这三大数据库为全世界分子生物学和医学研究人员了解生物分子信息的组织和结构,破译基因组信息提供了必要的支撑。但是用传统的手工分析方法来处理数据显然已经无法跟上新时代的步伐,对于大量的实验结果必须利用计算机进行自动分析,以此来寻找数据之间存在的密切关系,并且用来解决实际中的问题。
3.基因组序列分析
基因组学研究的首要目标是获得人的整套遗传密码,要得到人的全部遗传密码就要把人的基因组打碎,测完每个小的序列后再把它们重新拼接起来。所以目前生物信息学的大量工作是针对基因组DNA序列的,建立快速而又准确的DNA序列分析方法对研究基因的结构和功能有非常重要的意义。对于基因组序列,人们比较关心的是从序列中找到基因及其表达调控信息,比如对于未知基因,我们就可以通过把它与已知的基因序列进行比较,从而了解该基因相关的生理功能或者提供疾病发病机理的信息,从而为研发新药或对疾病的治疗提供一定的依据,使我们更全面地了解基因的结构,认识基因的功能。因此,如何让计算机有效地管理和运行海量的数据也是一个重要问题。
4.蛋白质结构预测
蛋白质是组成生物体的基本物质,几乎一切生命活动都要通过蛋白质的结构与功能体现出来,因此分析处理蛋白质数据也是相当重要的,蛋白质的生物功能由蛋白质的结构所决定,因此根据蛋白质序列预测蛋白质结构是很重要的问题,这就需要分析大量的数据,从中找出蛋白质序列和结构之间存在的关系与规律。
蛋白质结构预测分为二级结构预测和空间结构预测,在二级结构预测方面主要有以下几种不同的方法:①基于统计信息;②基于物理化学性质;③基于序列模式;④基于多层神经网络;⑤基于图论;⑥基于多元统计;⑦基于机器学习的专家规则;⑧最邻近算法。目前大多数二级结构预测的算法都是由序列比对算法BLAST、FASTA、CLUSTALW产生的经过比对的序列进行二级结构预测。虽然二级结构的预测方法其准确率已经可以达到80%以上,但二级结构预测的准确性还有待提高。
在实际进行蛋白质二级结构预测时,往往会把结构实验结果、序列比对结果、蛋白质结构预测结果,还有各种预测方法结合起来,比较常用的是同时使用多个软件进行预测,把各个软件预测结果分析后得出比较接近实际的蛋白质二级结构。将序列比对与二级结构预测相结合也是一种常见的综合分析方法。
蛋白质二级结构指蛋白质多肽链本身的折叠和盘绕的方式。二级结构主要有α-螺旋、β-折叠、β-转角等几种形式,它们是构成蛋白质高级结构的基本要素,常见的二级结构有α-螺旋和β-折叠。三级结构是在二级结构的基础上进一步盘绕,折叠形成的。研究蛋白质空间结构的目标是为了了解蛋白质与三维结构的关系,预测蛋白质的二级结构预测只是预测蛋白质三维形状的第一步,蛋白质折叠问题是非常复杂的,这就导致了蛋白质的空间结构预测的复杂性。蛋白质三维结构预测方法有:同源模型化方法、线索化方法和从头预测的方法但是无论用哪一种方法,结果都是预测,采用不同的算法,可能产生不同的结果,因此还需要研究新的理论计算方法来预测蛋白质的三维结构。
图4.1 蛋白质结构
目前,已知蛋白质序列数据库中的数据量远远超过结构数据库中的数据量,并且这种差距会随着DNA序列分析技术和基因识别方法的进步越来越大,人们希望产生蛋白质结构的进度能够跟上产生蛋白质序列的速度,这就需要对蛋白质结构预测发展新的理论分析方法,目前还没有一个算法能够很好地预测出一个蛋白的三维结构形状,蛋白质的结构预测被认为是当代计算机科学要解决的最重要的问题之一,因此蛋白质结构预测的算法在分子生物学中显得尤为重要。
5.结束语
现如今计算机的发展已渗透到各个领域,生物学中的大量实验数据的处理和理论分析也需要有相应的计算机程序来完成,因此随着现代科技的发展,生物技术与计算机信息技术的融合已成为大势所趋。生物学研究过程中产生的海量数据需要强有力的数据处理分析工具,这样计算机科学技术就成为了生物科学家的必然选择,虽然人们已经利用计算机技术解决了很多生物学上的难题,但是如何利用计算机更好地处理生物学中的数据仍是一个长期而又复杂的课题。