果蔬小分子数据库_常用的查询蛋白质结构以及序列的数据库主要有哪些

㈠常用的查询蛋白质结构以及序列的数据库主要有哪些

1. PIR和PSD
PIR国际蛋白质序列数据库(PSD)是由蛋白质信息资源(PIR)、慕尼黑蛋白质序列信息中心(MIPS)和日本国际蛋白质序列数据库(JIPID)共同维护的国际上最大的公共蛋白质序列数据库，可在这里下载。这是一个全面的、经过注释的、非冗余的蛋白质序列数据库，其中包括来自几十个完整基因组的蛋白质序列。所有序列数据都经过整理，超过99%的序列已按蛋白质家族分类，一半以上还按蛋白质超家族进行了分类。PSD的注释中还包括对许多序列、结构、基因组和文献数据库的交叉索引，以及数据库内部条目之间的索引，这些内部索引帮助用户在包括复合物、酶－底物相互作用、活化和调控级联和具有共同特征的条目之间方便的检索。每季度都发行一次完整的数据库，每周可以得到更新部分。
PSD数据库有几个辅助数据库，如基于超家族的非冗余库等。PIR提供三类序列搜索服务：基于文本的交互式检索；标准的序列相似性搜索，包括BLAST、FASTA等；结合序列相似性、注释信息和蛋白质家族信息的高级搜索，包括按注释分类的相似性搜索、结构域搜索GeneFIND等。
2. SWISS-PROT
SWISS-PROT是经过注释的蛋白质序列数据库，由欧洲生物信息学研究所(EBI)维护。数据库由蛋白质序列条目构成，每个条目包含蛋白质序列、引用文献信息、分类学信息、注释等，注释中包括蛋白质的功能、转录后修饰、特殊位点和区域、二级结构、四级结构、与其它序列的相似性、序列残缺与疾病的关系、序列变异体和冲突等信息。SWISS-PROT中尽可能减少了冗余序列，并与其它30多个数据建立了交叉引用，其中包括核酸序列库、蛋白质序列库和蛋白质结构库等。
利用序列提取系统(SRS)可以方便地检索SWISS-PROT和其它EBI的数据库。SWISS-PROT只接受直接测序获得的蛋白质序列，序列提交可以在其Web页面上完成。
3. PROSITE
PROSITE数据库收集了生物学有显着意义的蛋白质位点和序列模式，并能根据这些位点和模式快速和可靠地鉴别一个未知功能的蛋白质序列应该属于哪一个蛋白质家族。有的情况下，某个蛋白质与已知功能蛋白质的整体序列相似性很低，但由于功能的需要保留了与功能密切相关的序列模式，这样就可能通过PROSITE的搜索找到隐含的功能motif，因此是序列分析的有效工具。PROSITE中涉及的序列模式包括酶的催化位点、配体结合位点、与金属离子结合的残基、二硫键的半胱氨酸、与小分子或其它蛋白质结合的区域等；除了序列模式之外，PROSITE还包括由多序列比对构建的profile，能更敏感地发现序列与profile的相似性。PROSITE的主页上提供各种相关检索服务。
4. PDB
蛋白质数据仓库(PDB)是国际上唯一的生物大分子结构数据档案库，由美国Brookhaven国家实验室建立。PDB收集的数据来源于X光晶体衍射和核磁共振(NMR)的数据，经过整理和确认后存档而成。目前PDB数据库的维护由结构生物信息学研究合作组织(RCSB)负责。RCSB的主服务器和世界各地的镜像服务器提供数据库的检索和下载服务，以及关于PDB数据文件格式和其它文档的说明，PDB数据还可以从发行的光盘获得。使用Rasmol等软件可以在计算机上按PDB文件显示生物大分子的三维结构。
5. SCOP
蛋白质结构分类(SCOP)数据库详细描述了已知的蛋白质结构之间的关系。分类基于若干层次：家族，描述相近的进化关系；超家族，描述远源的进化关系；折叠子(fold)，描述空间几何结构的关系；折叠类，所有折叠子被归于全α、全β、α/β、α＋β和多结构域等几个大类。SCOP还提供一个非冗余的ASTRAIL序列库，这个库通常被用来评估各种序列比对算法。此外，SCOP还提供一个PDB-ISL中介序列库，通过与这个库中序列的两两比对，可以找到与未知结构序列远缘的已知结构序列。
6. COG
蛋白质直系同源簇(COGs)数据库是对细菌、藻类和真核生物的21个完整基因组的编码蛋白，根据系统进化关系分类构建而成。COG库对于预测单个蛋白质的功能和整个新基因组中蛋白质的功能都很有用。利用COGNITOR程序，可以把某个蛋白质与所有COGs中的蛋白质进行比对，并把它归入适当的COG簇。COG库提供了对COG分类数据的检索和查询，基于Web的COGNITOR服务，系统进化模式的查询服务等。

㈡列举常用的生物信息学数据库及序列对比常用软件及特点

一般来说所用的分析工具有在线跟下载的下面简要列举一些常用在线软件的使用 1、使用VecScreen工具，分析下列未知序列，输出序列长度、载体序列的区域、可能使用的克隆载体都有哪些。一、步骤：
打开google 首页，搜索VecScreen，进入VecScreen首页，复制序列，运行，View report。
二、结果：
输出序列长度918bp，
载体序列的区域456bp——854bp.
克隆载体：M13mp18 phage，pGEM-13Zf(+)，pBR322，pRKW2。
2、使用相应工具，分析下列未知序列的重复序列情况，输出重复序列的区域、包含的所有重复序列的类型、重复序列的总长度及Masked Sequence。
一、步骤：
进入google首页，进入ICBI主页，对序列进行BLAST。得出序列是human的。
进入google首页，搜索RepeatMasker，进入RepeatMasker主页，进入RepeatMasking，复制序列，DNA source选择human，运行！点击超链接，在结果中选择
Annotation File ：RM2sequpload_1287631711.out.html
3、使用CpGPlot/CpGReport/Isochore工具，分析下列未知序列，输出CpG岛的长度、区域、GC数量、所占的百分比及Obs/Exp值。一、步骤：
进入google首页，搜索CpGPlot，进入CpGPlot主页，program中选择cpgreport复制序列，运行！
二、结果：

CpG岛的长度：385bp
区域：48——432；
GC数量：Sum C+G=297，百分数=77.14
Obs/Exp：1.01
4、预测下面序列的启动子，输出可能的启动子序列及相应的位置。一、步骤：
进入google首页，进入ICBI主页，对序列进行BLAST。得出序列是human的
进入google首页，搜索Neural Network Promoter Prediction，进入主页，复制序列，选择eukaryote，运行！
二、结果：

位置：711—761 ，1388—1438，1755—1805；
5、运用Splice Site Prediction工具分析下面序列，分别输出内含子－外显子剪接位点给体和受体的区域及剪接处位置的碱基。一、步骤：
进入google首页，进入ICBI主页，对序列进行BLAST。得出序列是human的
进入google首页，搜索Splice Site Prediction，进入主页，复制序列。Organism选择Human or other。其他默认，运行！
二、结果：
供体：

受体：
6、对下面序列进行六框翻译，利用GENESCAN综合分析(首先确定给定序列的物种来源)哪个ORF是正确的，输出六框翻译（抓图）和GENESCAN结果(包括predicted genes/exons 和 predicted peptide sequence(s) 两个部分)。一、步骤：
进入google首页，进入ICBI主页，对序列进行BLAST。得出序列是Zea的
进入google首页；搜索NCBI，进入主页，选择all resources（A~Z），选择O，选择ORF finder。复制序列，默认，运行！
二、结果：ORF图
三、步骤：进入google首页，搜索GENESCAN，进入主页，Organism:Maize，，其他默认，运行！
四、结果：
G7、进入REBASE限制性内切酶数据库，输出AluI、MboI、EcoI三种内酶的Recognition Sequence和Type。
一、步骤：进入google首页，google in English，搜索REBASE，进入主页，分别输入AluI、MboI、EcoI，运行！
在MboI中选择第一个，EcoI选择第二个。
二、结果：
ENSCAN图
8、使用引物设计工具，针对下列未知序列设计一对引物，要求引物长度为20-25bp，扩增产物长度300-500bp，退火温度为50-60℃。请写出选择的一对引物（Forward Primer and Reverse Primer）、及相应的GC含量、引物的位点、Tm值和产物长度。一、步骤：进入google首页，搜索genefisher，进入主页，复制fasta格式，chechk input， sunmit，；；设置一下引物长度为20-25bp，扩增产物长度300-500bp，退火温度为50-60℃；。
二、结果：

GC含量：

引物的位点：

Tm值：

产物长度：。

9、将下面的序列用NEBcutter 2.0工具分析，用产生平末端及有四个酶切位点的酶进行酶切，并用抓图提交胶图（view gel），要求1.4% agarose和Marker为100bp DNA Ladder。
一、步骤：
进入google首页，进入ICBI主页，对序列进行BLAST，得知是linear。
进入google首页，搜索NEBcutter 2.0，进入主页，选择linear，运行！选择custom digest，，把“1”改为“4”，选择平末端，后digest。View gel。选择1.4% agarose和Marker为100bp。
二、结果：

然后就是蛋白质的了一般都在expasy里swiss-prot 适用于检索的 compute pi/mw 求理论分子量分子量 protparam物理化学性质 protscale亲水性疏水性 peptidemass分析蛋白酶和化学试剂处理后的内切产物
NCBI(www.ncbi.nlm.nih.gov)-GenBank数据库

数据库相似性搜索——核酸序列与核酸数据库比较（BLASTN）
蛋白质序列与数据库中蛋白质序列比较（BLASTP）
两序列比对（Align two sequences）

DNA序列分析——ORF Finder(www.ncbi.nlm.nih.gov/gorf/gorf.html)

分析实验序列外显子部分——GENSCAN（http://genes.mit.e/GENSCAN.html）
分析实验序列的可能酶切位点——NEBcutter2.0 (http://tools.neb.com/NEBcutter2/index.php)
注： Custom digest -- view gel

限制性内切酶数据库——REBASE(http://rebase.neb.com/rebase/rebase.html)

设计引物扩增实验序列——Genefisher
Primer 3

蛋白质序列分析及结构预测：
1.预测蛋白质的分子量及等电点:ExPASy（Compute pI/Mw）
2.分析蛋白质的基本物理化学性质：ExPASy（ProtParam）
3.分析蛋白质的亲水性和疏水性：ExPASy（ProtScale）
4.分析蛋白质在各种蛋白酶和各种化学试剂处理后的内切产物：ExPASy（PeptideMass） [* ：kinase K]
5.分析蛋白质的信号肽：ExPASy（SignalP）
6.预测蛋白质的二级结构：ExPASy（Jpred 3）

多物种分子系统发育分析：EMBL（www.ebi.ac.uk/embl/)--Toolbox--Clustal2W

人脂联素蛋白质序列：NP_004788
人类胰岛素生长因子IB前体：P05019

㈢ zinc数据库里面有多少小分子

在生物医学信息学领域,数据库和服务的定义与计算机领域有很大的不同,如果要问NCBI过去,现在或将来会有多少数据库,恐怕连NCBI自己都说不清楚.要是一个一个数据库讲下来,9999个字肯定不够用.这里有一个列表供您参考http://www.ncbi.nlm.nih.gov/guide/all/.
NCBI的产生和发展是在美国和全球生物学高速发展,高通量数据急速产生,而缺乏有效的数据分析方法的背景下产生,起初它主要任务是数据的存储和查询.只不过其存储的数据大多以高通量数据为主,例如基因测序,基因组,SNP,基因芯片,小分子化合物和GWAS数据等.这些数据的共享,极大地促进了生物信息学发展.
按照数据->样式->知识->智慧的发展模式,NCBI主要起到了一个为生物学家提供数据的角色.不过,NCBI目前也不断地在调整自己的角色.例如,生物医学文献.NCBI在从NLM继承过来的pubmed的基础,提供以PMC数据库为核心的全文文献服务.PubMed数据库应该是全球生物学家使用频率最高的数据库.NCBI最近对pubmed的改版,虽然没有实质性的改变,但其按照用户体验进行的修改,足见其对该数据库的重视.
另外,NCBI目前不断地在引入高学历生物学人才对其数据库的质量进行控制.以dbSNP为例,其正在通过与领域专家的合作将突变数据与人类表型数据进行关联.
总得来讲,NCBI的发展是与生物学高通量数据产生密切相关,它以经不在局限于提供数据存储与查询,其未来的发展必将发展为一个大型的、综合的知识库.到那时NCBI会不会免费,就要另当别论了.很显然没有人会将自己的手稿拱手让人.如果真有那么一天,不知道从中会产生多少专利和知识产权.

㈣怎么筛选PDB数据库中的蛋白

打开PDB数据库输入你知道的PDB编号如果不知道编号就输入英文名称或者简称,搜索后出现蛋白质列表一个个看看哪个是你想要的.点一下,右上方有下载链接.下载xxx.pdb到本地磁盘后用pymol或者rasmol软件打开看.或者用文本编辑器打开看详细的附加信息.

㈤求：一些好的有关于自然科学的英文网站！

果蔬小分子数据库

与果蔬小分子数据库相关的内容