‘壹’ 有哪位知道专门翻译dna互补链的网站
我们都用软件做这个工作,例如Premier Primer 5、Omiga等很多软件都能做。而网站来说,做更多深入分析的网站很多,这一项工作太简单,专门翻译DNA互补链的网站还真不多,可以考虑:
DNA序列分析——ORF Finder(NCBI主页网址/gorf/gorf.html)
其他功能的网站有:
NCBI-GenBank数据库
数据库相似性搜索——核酸序列与核酸数据库比较(BLASTN)
蛋白质序列与数据库中蛋白质序列比较(BLASTP)
两序列比对(Align two sequences)
分析实验序列外显子部分——GENSCAN
分析实验序列的可能酶切位点——NEBcutter2.0
限制性内切酶数据库——REBASE
设计引物扩增实验序列——Genefisher
Primer 3
蛋白质序列分析及结构预测:
预测蛋白质的分子量及等电点:ExPASy(Compute pI/Mw)
分析蛋白质的基本物理化学性质:ExPASy(ProtParam)
分析蛋白质的亲水性和疏水性:ExPASy(ProtScale)
分析蛋白质在各种蛋白酶和各种化学试剂处理后的内切产物:ExPASy(PeptideMass)
分析蛋白质的信号肽:ExPASy(SignalP)
预测蛋白质的二级结构:ExPASy(Jpred 3)
多物种分子系统发育分析:EMBL--Toolbox--Clustal2W
人脂联素蛋白质序列:NP_004788
人类胰岛素生长因子IB前体:P05019
‘贰’ 多媒体数据库中的常用的查询与检索方法是什么
由特征分析子系统、特征提取子系统、数据库、查询接口、检索引擎和索引过滤等子系统组成,同时需要相应的知识辅助支持特定领域的内容处理。
(1)特征分析:该子系统负责将需要入库的媒体进行分割或节段化,标识出需要的对象或内容关键点,以便有针对性的对目标进行特征提取。特征标识可通过用户输入或系统定义。
(2)特征提取对用户提供或系统标明的媒体对象进行特征提取处理。提取特征时需要知识处理模块的辅助,与标准化的知识定义直接有关。
(3)数据库包含多媒体数据库和特征数据库,分别存放多媒体数据同对应的特征数据,它们彼此之间存在着一定的对应关系。特征库中包含了由用户输入的和预处理自动提取的特征数据,通过检索引擎组织与媒体类型相匹配的索引来达到快速搜索的目的。
(4)查询接口,即人机交互界面,友好的人机交互界面是检索系统不可缺少的。在基于内容的检索中,由于特征不直观,因此必须为用户提供一个可视化的输入手段,还应在用户界面提供查询结果的创览功能,即为用户提供初步查询结果的返回,系统会根据用户选择的排序标准(如颜色、旋律、节拍等),按照相似度的大小将结果排列后,返回给用户。
(5)检索引擎,检索要将特征提取值和特征库中的值进行比较,得到一个相似度。不同的媒体各自具有不同的相似度算法,这些算法也称为相似性测度函数。检索引擎使用相似性测度函数集去进行比较,从而确定与特征库的值最接近的多媒体数据。
(6)索引过滤在大规模多媒体数据检索过程中,为了提高检索效率,常在检索引擎进行匹配之前采用索引过滤方法,取出高维特征用于匹配。
‘叁’ 序列相似性检索工具
NCBI的BLAST(Altschul et al.,1997)是利用序列相似性鉴别生物体最流行的工具。为了消除上述在木霉种类鉴定方面的缺陷,Kopchinskiy等(2005)发展了TrichoBLAST,它是一个依据序列诊断和相似性搜索工具支持的公开可靠的数据库,包括所有基因特征的木霉和肉座菌,以及5种使用最频繁的系统发育标记:内转录间隔区ITS1和2、编码转录延伸因子Ⅰa 亚基蛋白的基因的两个内含子(tef1_int4,tef1_int5)和一个外显子(tef_exon6)、RNA聚合酶第二亚基(rpb2_exon)。该工具也被放在 ISTH 网站上,片段和种类信息不断得到更新。
图1.8 存贮在NCBI GenBank里的肉座菌/木霉种类名称及核心基因序列的数量
(Drunina,2006a)
图1.9 利用www.isth.info工具对木霉/肉座菌进行分子鉴别的最优步骤
(Drunina,2006a)
由于在基因序列(如tef1)扩增和测序的时候,没有统一的引物,在现已出版的数据库里,同一基因名下的序列片段长度和位置都有很大的差异,所以,相似性检索的准确性也遇到很大的阻碍。例如,如果tef1序列包含一个短且高度可变的内含子和一个相对保守的外显子的一部分,当在进行相似性检索的时候,基于高分辨率,外显子序列间被计算,而内含子间的相似性就被忽略。为了消除这一障碍,强制执行TrichoMARK(图1.9)策略,能对质疑序列的系统发育标记进行测定和检索,然后单独提交至 TrichoBLAST。TrichoMARK 第一个版本能够诊断木霉/肉座菌基因特性的寡核苷酸序列的ITS1和ITS2序列(Drunina et al.,2005a),并能对ITS1和ITS2系统发育标记精确定位。在高度诊断tef1内含子的情况下,TrichoMARK搜索内含子两侧保守的种属特定区域,单独检索内含子的相似性,提供检测系统发育标记的实际和理论上的长度比较结果。同样,程序分别扫描tef1和rpb2外显子上的特定寡核苷酸延伸区域,检索与TrichoBLAST里类似的系统发育标记匹配的可疑序列。这样的BLAST前序列诊断明显提高随后相似性分析的精确性。
通过上述步骤,应用者就可自动提交序列进行相似性分析,通过BLAST方法得到标准的对比结果。但是,使用该方法必须重视几条预防措施:相似性不代表亲缘的权威程度(de Queiroz,1992),还要依赖选择的是哪种系统发育标记,以及TrichoBLAST是否包含所有已知种类的各个序列。就这一点而言,除了前面提到的少数例外(所有例外在Tri-choBLAST分析结果里都有清晰标注),ITS1和ITS2是很有诊断性,也是独一无二的。因为ITS1和ITS2序列不全与数据库中的记录相匹配,而是与一个或几个核苷酸有差异,或者表明是已知种类的未知等位基因,或者表明是一个新的种类。
为了确认该状况下的种类鉴别,TrichoBLAST的相似性分析应该还包括其他系统发育标记或者多种系统发育标记分析。至于两个tef1内含子,由于其高度的种间变异,序列鉴别很不确定(Chaverri et al.,2003 a;Drunina et al.,2004)。根据上面给出的预防措施(Kopchinskiy et al.,2005),小范围的匹配表明最大程度的亲缘关系。但是,假如这种关系不能直接通过BLAST提供的相似指数进行推断,就必须采用系统推理的方法替代。为此,第三个交互式模型(www.isth.info)得到发展,即一个公开可用系统发育标记的多位点数据库(Multiloci Database of Phylogenetic Markers)(Kopchinskiy et al.,2005)。该数据库仅包含一条与五个系统发育标记相匹配的记录,通过与已发表序列手动检索和校准,系统发育标记被修改完全符合TrichoBLAST格式,并直接对质疑序列进行系统发育分析。
‘肆’ 如何查找数据库中的重复数据
1、查找表中多余的重复记录,重复记录是根据单个字段(peopleId)来判断
select * from peoplewhere peopleId in (select peopleId from people group by peopleId having count (peopleId) > 1)
2、删除表中多余的重复记录,重复记录是根据单个字段(peopleId)来判断,只留有rowid最小的记录
delete from peoplewhere peopleId in (select peopleId from people group by peopleId having count (peopleId) > 1)and rowid not in (select min(rowid) from people group by peopleId having count(peopleId )>1)
3、查找表中多余的重复记录(多个字段)
select * from vitae awhere (a.peopleId,a.seq) in (select peopleId,seq from vitae group by peopleId,seq having
(4)数据库相似性搜索扩展阅读
FROM子句指定SELECT语句查询及与查询相关的表或视图。在FROM子句中最多可指定256个表或视图,它们之间用逗号分隔。
在FROM子句同时指定多个表或视图时,如果选择列表中存在同名列,这时应使用对象名限定这些列所属的表或视图。
例如在usertable和citytable表中同时存在cityid列,在查询两个表中的cityid时应使用下面语句格式加以限定:
SELECTusername,citytable.cityid
FROMusertable,citytable
WHEREusertable.cityid=citytable.cityid
在FROM子句中可用以下两种格式为表或视图指定别名:
表名 as 别名
表名 别名
‘伍’ 列举常用的生物信息学数据库及序列对比常用软件及特点
一般来说所用的分析工具有在线跟下载的 下面简要列举一些常用在线软件的使用 1、使用VecScreen工具,分析下列未知序列,输出序列长度、载体序列的区域、可能使用的克隆载体都有哪些。一、步骤:
打开google 首页,搜索VecScreen,进入VecScreen首页,复制序列,运行,View report。
二、结果:
输出序列长度918bp,
载体序列的区域456bp——854bp.
克隆载体:M13mp18 phage,pGEM-13Zf(+),pBR322,pRKW2。
2、使用相应工具,分析下列未知序列的重复序列情况,输出重复序列的区域、包含的所有重复序列的类型、重复序列的总长度及Masked Sequence。
一、步骤:
进入google首页,进入ICBI主页,对序列进行BLAST。得出序列是human的。
进入google首页,搜索RepeatMasker,进入RepeatMasker主页,进入RepeatMasking,复制序列,DNA source选择human,运行!点击超链接,在结果中选择
Annotation File :RM2sequpload_1287631711.out.html
3、使用CpGPlot/CpGReport/Isochore工具,分析下列未知序列,输出CpG岛的长度、区域、GC数量、所占的百分比及Obs/Exp值。一、步骤:
进入google首页,搜索CpGPlot,进入CpGPlot主页,program中选择cpgreport复制序列,运行!
二、结果:
CpG岛的长度:385bp
区域:48——432;
GC数量:Sum C+G=297,百分数=77.14
Obs/Exp:1.01
4、预测下面序列的启动子,输出可能的启动子序列及相应的位置。一、步骤:
进入google首页,进入ICBI主页,对序列进行BLAST。得出序列是human的
进入google首页,搜索Neural Network Promoter Prediction,进入主页,复制序列,选择eukaryote,运行!
二、结果:
位置:711—761 ,1388—1438,1755—1805;
5、运用Splice Site Prediction工具分析下面序列,分别输出内含子-外显子剪接位点给体和受体的区域及剪接处位置的碱基。一、步骤:
进入google首页,进入ICBI主页,对序列进行BLAST。得出序列是human的
进入google首页,搜索Splice Site Prediction,进入主页,复制序列。Organism选择Human or other。其他默认,运行!
二、结果:
供体:
受体:
6、对下面序列进行六框翻译,利用GENESCAN综合分析(首先确定给定序列的物种来源)哪个ORF是正确的,输出六框翻译(抓图)和GENESCAN结果(包括predicted genes/exons 和 predicted peptide sequence(s) 两个部分)。一、步骤:
进入google首页,进入ICBI主页,对序列进行BLAST。得出序列是Zea的
进入google首页;搜索NCBI,进入主页,选择all resources(A~Z),选择O,选择ORF finder。复制序列,默认,运行!
二、结果:ORF图
三、步骤:进入google首页,搜索GENESCAN,进入主页,Organism:Maize, ,其他默认,运行!
四、结果:
G7、进入REBASE限制性内切酶数据库,输出AluI、MboI、EcoI三种内酶的Recognition Sequence和Type。
一、步骤:进入google首页,google in English,搜索REBASE,进入主页, 分别输入AluI、MboI、EcoI,运行!
在MboI中选择第一个,EcoI选择第二个。
二、结果:
ENSCAN图
8、使用引物设计工具,针对下列未知序列设计一对引物,要求引物长度为20-25bp,扩增产物长度300-500bp,退火温度为50-60℃。请写出选择的一对引物(Forward Primer and Reverse Primer)、及相应的GC含量、引物的位点、Tm值和产物长度。一、步骤:进入google首页,搜索genefisher,进入主页,复制fasta格式,chechk input, sunmit, ; ;设置一下引物长度为20-25bp,扩增产物长度300-500bp,退火温度为50-60℃; 。
二、结果:
GC含量:
引物的位点:
Tm值:
产物长度:。
9、将下面的序列用NEBcutter 2.0工具分析,用产生平末端及有四个酶切位点的酶进行酶切,并用抓图提交胶图(view gel),要求1.4% agarose和Marker为100bp DNA Ladder。
一、步骤:
进入google首页,进入ICBI主页,对序列进行BLAST,得知是linear。
进入google首页,搜索NEBcutter 2.0,进入主页,选择linear,运行!选择custom digest, ,把“1”改为“4”,选择平末端,后digest。View gel。选择1.4% agarose和Marker为100bp。
二、结果:
然后就是蛋白质的了一般都在expasy里swiss-prot 适用于检索的 compute pi/mw 求理论分子量 分子量 protparam物理化学性质 protscale亲水性疏水性 peptidemass分析蛋白酶和化学试剂处理后的内切产物
NCBI(www.ncbi.nlm.nih.gov)-GenBank数据库
数据库相似性搜索——核酸序列与核酸数据库比较(BLASTN)
蛋白质序列与数据库中蛋白质序列比较(BLASTP)
两序列比对(Align two sequences)
DNA序列分析——ORF Finder(www.ncbi.nlm.nih.gov/gorf/gorf.html)
分析实验序列外显子部分——GENSCAN(http://genes.mit.e/GENSCAN.html)
分析实验序列的可能酶切位点——NEBcutter2.0 (http://tools.neb.com/NEBcutter2/index.php)
注: Custom digest -- view gel
限制性内切酶数据库——REBASE(http://rebase.neb.com/rebase/rebase.html)
设计引物扩增实验序列——Genefisher
Primer 3
蛋白质序列分析及结构预测:
1.预测蛋白质的分子量及等电点:ExPASy(Compute pI/Mw)
2.分析蛋白质的基本物理化学性质:ExPASy(ProtParam)
3.分析蛋白质的亲水性和疏水性:ExPASy(ProtScale)
4.分析蛋白质在各种蛋白酶和各种化学试剂处理后的内切产物:ExPASy(PeptideMass) [* :kinase K]
5.分析蛋白质的信号肽:ExPASy(SignalP)
6.预测蛋白质的二级结构:ExPASy(Jpred 3)
多物种分子系统发育分析:EMBL(www.ebi.ac.uk/embl/)--Toolbox--Clustal2W
人脂联素蛋白质序列:NP_004788
人类胰岛素生长因子IB前体:P05019
‘陆’ 生物信息学常用的软件有哪些
NCBI(www.ncbi.nlm.nih.gov)-GenBank数据库
数据库相似性搜索——核酸序列与核酸数据库比较(BLASTN)
蛋白质序列与数据库中蛋白质序列比较(BLASTP)
两序列比对(Align two sequences)
DNA序列分析——ORF Finder(www.ncbi.nlm.nih.gov/gorf/gorf.html)
分析实验序列外显子部分——GENSCAN(http://genes.mit.e/GENSCAN.html)
分析实验序列的可能酶切位点——NEBcutter2.0 (http://tools.neb.com/NEBcutter2/index.php)
注: Custom digest -- view gel
限制性内切酶数据库——REBASE(http://rebase.neb.com/rebase/rebase.html)
设计引物扩增实验序列——Genefisher
Primer 3
蛋白质序列分析及结构预测:
1.预测蛋白质的分子量及等电点:ExPASy(Compute pI/Mw)
2.分析蛋白质的基本物理化学性质:ExPASy(ProtParam)
3.分析蛋白质的亲水性和疏水性:ExPASy(ProtScale)
4.分析蛋白质在各种蛋白酶和各种化学试剂处理后的内切产物:ExPASy(PeptideMass) [* :kinase K]
5.分析蛋白质的信号肽:ExPASy(SignalP)
6.预测蛋白质的二级结构:ExPASy(Jpred 3)
多物种分子系统发育分析:EMBL(www.ebi.ac.uk/embl/)--Toolbox--Clustal2W
人脂联素蛋白质序列:NP_004788
人类胰岛素生长因子IB前体:P05019
‘柒’ 知道ORF finder的网址吗
NCBI(www.ncbi.nlm.nih.gov)-GenBank数据库
数据库相似性搜索——核酸序列与核酸数据库比较(BLASTN)
蛋白质序列与数据库中蛋白质序列比较(BLASTP)
两序列比对(Align two sequences)
DNA序列分析——ORF Finder(www.ncbi.nlm.nih.gov/gorf/gorf.html)
分析实验序列外显子部分——GENSCAN(http://genscanw.biosino.org)
分析实验序列的可能酶切位点——NEBcutter2.0 (http://tools.neb.com/NEBcutter2/index.php)
注: Custom digest -- view gel
限制性内切酶数据库——REBASE(http://rebase.neb.com/rebase/rebase.html)
设计引物扩增实验序列——Genefisher
Primer 3
蛋白质序列分析及结构预测:
1.预测蛋白质的分子量及等电点:ExPASy(Compute pI/Mw)
2.分析蛋白质的基本物理化学性质:ExPASy(ProtParam)
3.分析蛋白质的亲水性和疏水性:ExPASy(ProtScale)
4.分析蛋白质在各种蛋白酶和各种化学试剂处理后的内切产物:ExPASy(PeptideMass) [* :kinase K]
5.分析蛋白质的信号肽:ExPASy(SignalP)
6.预测蛋白质的二级结构:ExPASy(Jpred 3)
多物种分子系统发育分析:EMBL(www.ebi.ac.uk/embl/)--Toolbox--Clustal2W
人脂联素蛋白质序列:NP_004788
人类胰岛素生长因子IB前体:P05019
‘捌’ 生物信息学的常用缩写都有哪些
DNA序列分析——ORF Finder
NCBI(www.ncbi.nlm.nih.gov)-GenBank数据库
数据库相似性搜索——核酸序列与核酸数据库比较(BLASTN)
蛋白质序列与数据库中蛋白质序列比较(BLASTP)
基因组数据库:英国ArkDB、美国GDB和TDB、欧洲EMBL、AceDB(线虫数据库)、SGD(酵母数据库)、核酸序列数据库GenBank
蛋白质结构数据库:PDB
‘玖’ 有哪些信息可用以发现基因
1最长ORFs法 对于任何给定的核酸序列(单链DNA或mRNA),根据密码子的起始位置,可以按照三种方式进行解释。可以用最长ORFs法识别原核基因。
2基于密码子出现频率的预测方法
3同源性方法
同源性方法(或称数据库相似性搜索法)根据具有相同起源的序列在碱基组成上具有相似性的特点来识别未知的编码序列,主要是通过数据库相似性搜索法来实现的。通过数据库搜索,发现相似序列或者同源序列,根据相似序列具有相似结构及相似功能的原理,得到待分析序列的初步信息,指导详细的序列分析。
4神经网络方法
目前,广泛应用的一些神经网络模型包括感知器(perceptron)模型、反向传播网络(back-propagation network,BP)模型、自组织特征映射(self-organizing map,SOM)模型、回归网络(recurrent network)模型和混合网络模型等。
5隐马尔柯夫模型法
目前,基因识别的HMM方法也大致可以分为两类,一类为按照内容搜索的方法,另一类为按照信号搜索的方法。
6 模式判别分析法
模式判别分析(Pattern discrimination analysis)是一种统计方法,主要根据观察到的一个或多个序列模式来对序列进行分类。
7 基于动态变化的基因结构预测方法
8 基于剪切比对(Spliced alignment)的基因识别
这种方法的基本思想是利用数据库中的同源信息进行基因识别,包括DNA、RNA和蛋白质数据库。
9 其它基因识别方法
基于规则的识别方法,语义学的方法,决策树方法等。