果蔬小分子資料庫_常用的查詢蛋白質結構以及序列的資料庫主要有哪些

㈠常用的查詢蛋白質結構以及序列的資料庫主要有哪些

1. PIR和PSD
PIR國際蛋白質序列資料庫(PSD)是由蛋白質信息資源(PIR)、慕尼黑蛋白質序列信息中心(MIPS)和日本國際蛋白質序列資料庫(JIPID)共同維護的國際上最大的公共蛋白質序列資料庫，可在這里下載。這是一個全面的、經過注釋的、非冗餘的蛋白質序列資料庫，其中包括來自幾十個完整基因組的蛋白質序列。所有序列數據都經過整理，超過99%的序列已按蛋白質家族分類，一半以上還按蛋白質超家族進行了分類。PSD的注釋中還包括對許多序列、結構、基因組和文獻資料庫的交叉索引，以及資料庫內部條目之間的索引，這些內部索引幫助用戶在包括復合物、酶－底物相互作用、活化和調控級聯和具有共同特徵的條目之間方便的檢索。每季度都發行一次完整的資料庫，每周可以得到更新部分。
PSD資料庫有幾個輔助資料庫，如基於超家族的非冗餘庫等。PIR提供三類序列搜索服務：基於文本的互動式檢索；標準的序列相似性搜索，包括BLAST、FASTA等；結合序列相似性、注釋信息和蛋白質家族信息的高級搜索，包括按注釋分類的相似性搜索、結構域搜索GeneFIND等。
2. SWISS-PROT
SWISS-PROT是經過注釋的蛋白質序列資料庫，由歐洲生物信息學研究所(EBI)維護。資料庫由蛋白質序列條目構成，每個條目包含蛋白質序列、引用文獻信息、分類學信息、注釋等，注釋中包括蛋白質的功能、轉錄後修飾、特殊位點和區域、二級結構、四級結構、與其它序列的相似性、序列殘缺與疾病的關系、序列變異體和沖突等信息。SWISS-PROT中盡可能減少了冗餘序列，並與其它30多個數據建立了交叉引用，其中包括核酸序列庫、蛋白質序列庫和蛋白質結構庫等。
利用序列提取系統(SRS)可以方便地檢索SWISS-PROT和其它EBI的資料庫。SWISS-PROT只接受直接測序獲得的蛋白質序列，序列提交可以在其Web頁面上完成。
3. PROSITE
PROSITE資料庫收集了生物學有顯著意義的蛋白質位點和序列模式，並能根據這些位點和模式快速和可靠地鑒別一個未知功能的蛋白質序列應該屬於哪一個蛋白質家族。有的情況下，某個蛋白質與已知功能蛋白質的整體序列相似性很低，但由於功能的需要保留了與功能密切相關的序列模式，這樣就可能通過PROSITE的搜索找到隱含的功能motif，因此是序列分析的有效工具。PROSITE中涉及的序列模式包括酶的催化位點、配體結合位點、與金屬離子結合的殘基、二硫鍵的半胱氨酸、與小分子或其它蛋白質結合的區域等；除了序列模式之外，PROSITE還包括由多序列比對構建的profile，能更敏感地發現序列與profile的相似性。PROSITE的主頁上提供各種相關檢索服務。
4. PDB
蛋白質數據倉庫(PDB)是國際上唯一的生物大分子結構數據檔案庫，由美國Brookhaven國家實驗室建立。PDB收集的數據來源於X光晶體衍射和核磁共振(NMR)的數據，經過整理和確認後存檔而成。目前PDB資料庫的維護由結構生物信息學研究合作組織(RCSB)負責。RCSB的主伺服器和世界各地的鏡像伺服器提供資料庫的檢索和下載服務，以及關於PDB數據文件格式和其它文檔的說明，PDB數據還可以從發行的光碟獲得。使用Rasmol等軟體可以在計算機上按PDB文件顯示生物大分子的三維結構。
5. SCOP
蛋白質結構分類(SCOP)資料庫詳細描述了已知的蛋白質結構之間的關系。分類基於若干層次：家族，描述相近的進化關系；超家族，描述遠源的進化關系；折疊子(fold)，描述空間幾何結構的關系；折疊類，所有折疊子被歸於全α、全β、α/β、α＋β和多結構域等幾個大類。SCOP還提供一個非冗餘的ASTRAIL序列庫，這個庫通常被用來評估各種序列比對演算法。此外，SCOP還提供一個PDB-ISL中介序列庫，通過與這個庫中序列的兩兩比對，可以找到與未知結構序列遠緣的已知結構序列。
6. COG
蛋白質直系同源簇(COGs)資料庫是對細菌、藻類和真核生物的21個完整基因組的編碼蛋白，根據系統進化關系分類構建而成。COG庫對於預測單個蛋白質的功能和整個新基因組中蛋白質的功能都很有用。利用COGNITOR程序，可以把某個蛋白質與所有COGs中的蛋白質進行比對，並把它歸入適當的COG簇。COG庫提供了對COG分類數據的檢索和查詢，基於Web的COGNITOR服務，系統進化模式的查詢服務等。

㈡列舉常用的生物信息學資料庫及序列對比常用軟體及特點

一般來說所用的分析工具有在線跟下載的下面簡要列舉一些常用在線軟體的使用 1、使用VecScreen工具，分析下列未知序列，輸出序列長度、載體序列的區域、可能使用的克隆載體都有哪些。一、步驟：
打開google 首頁，搜索VecScreen，進入VecScreen首頁，復制序列，運行，View report。
二、結果：
輸出序列長度918bp，
載體序列的區域456bp——854bp.
克隆載體：M13mp18 phage，pGEM-13Zf(+)，pBR322，pRKW2。
2、使用相應工具，分析下列未知序列的重復序列情況，輸出重復序列的區域、包含的所有重復序列的類型、重復序列的總長度及Masked Sequence。
一、步驟：
進入google首頁，進入ICBI主頁，對序列進行BLAST。得出序列是human的。
進入google首頁，搜索RepeatMasker，進入RepeatMasker主頁，進入RepeatMasking，復制序列，DNA source選擇human，運行！點擊超鏈接，在結果中選擇
Annotation File ：RM2sequpload_1287631711.out.html
3、使用CpGPlot/CpGReport/Isochore工具，分析下列未知序列，輸出CpG島的長度、區域、GC數量、所佔的百分比及Obs/Exp值。一、步驟：
進入google首頁，搜索CpGPlot，進入CpGPlot主頁，program中選擇cpgreport復制序列，運行！
二、結果：

CpG島的長度：385bp
區域：48——432；
GC數量：Sum C+G=297，百分數=77.14
Obs/Exp：1.01
4、預測下面序列的啟動子，輸出可能的啟動子序列及相應的位置。一、步驟：
進入google首頁，進入ICBI主頁，對序列進行BLAST。得出序列是human的
進入google首頁，搜索Neural Network Promoter Prediction，進入主頁，復制序列，選擇eukaryote，運行！
二、結果：

位置：711—761 ，1388—1438，1755—1805；
5、運用Splice Site Prediction工具分析下面序列，分別輸出內含子－外顯子剪接位點給體和受體的區域及剪接處位置的鹼基。一、步驟：
進入google首頁，進入ICBI主頁，對序列進行BLAST。得出序列是human的
進入google首頁，搜索Splice Site Prediction，進入主頁，復制序列。Organism選擇Human or other。其他默認，運行！
二、結果：
供體：

受體：
6、對下面序列進行六框翻譯，利用GENESCAN綜合分析(首先確定給定序列的物種來源)哪個ORF是正確的，輸出六框翻譯（抓圖）和GENESCAN結果(包括predicted genes/exons 和 predicted peptide sequence(s) 兩個部分)。一、步驟：
進入google首頁，進入ICBI主頁，對序列進行BLAST。得出序列是Zea的
進入google首頁；搜索NCBI，進入主頁，選擇all resources（A~Z），選擇O，選擇ORF finder。復制序列，默認，運行！
二、結果：ORF圖
三、步驟：進入google首頁，搜索GENESCAN，進入主頁，Organism:Maize，，其他默認，運行！
四、結果：
G7、進入REBASE限制性內切酶資料庫，輸出AluI、MboI、EcoI三種內酶的Recognition Sequence和Type。
一、步驟：進入google首頁，google in English，搜索REBASE，進入主頁，分別輸入AluI、MboI、EcoI，運行！
在MboI中選擇第一個，EcoI選擇第二個。
二、結果：
ENSCAN圖
8、使用引物設計工具，針對下列未知序列設計一對引物，要求引物長度為20-25bp，擴增產物長度300-500bp，退火溫度為50-60℃。請寫出選擇的一對引物（Forward Primer and Reverse Primer）、及相應的GC含量、引物的位點、Tm值和產物長度。一、步驟：進入google首頁，搜索genefisher，進入主頁，復制fasta格式，chechk input， sunmit，；；設置一下引物長度為20-25bp，擴增產物長度300-500bp，退火溫度為50-60℃；。
二、結果：

GC含量：

引物的位點：

Tm值：

產物長度：。

9、將下面的序列用NEBcutter 2.0工具分析，用產生平末端及有四個酶切位點的酶進行酶切，並用抓圖提交膠圖（view gel），要求1.4% agarose和Marker為100bp DNA Ladder。
一、步驟：
進入google首頁，進入ICBI主頁，對序列進行BLAST，得知是linear。
進入google首頁，搜索NEBcutter 2.0，進入主頁，選擇linear，運行！選擇custom digest，，把「1」改為「4」，選擇平末端，後digest。View gel。選擇1.4% agarose和Marker為100bp。
二、結果：

然後就是蛋白質的了一般都在expasy里swiss-prot 適用於檢索的 compute pi/mw 求理論分子量分子量 protparam物理化學性質 protscale親水性疏水性 peptidemass分析蛋白酶和化學試劑處理後的內切產物
NCBI(www.ncbi.nlm.nih.gov)-GenBank資料庫

資料庫相似性搜索——核酸序列與核酸資料庫比較（BLASTN）
蛋白質序列與資料庫中蛋白質序列比較（BLASTP）
兩序列比對（Align two sequences）

DNA序列分析——ORF Finder(www.ncbi.nlm.nih.gov/gorf/gorf.html)

分析實驗序列外顯子部分——GENSCAN（http://genes.mit.e/GENSCAN.html）
分析實驗序列的可能酶切位點——NEBcutter2.0 (http://tools.neb.com/NEBcutter2/index.php)
註： Custom digest -- view gel

限制性內切酶資料庫——REBASE(http://rebase.neb.com/rebase/rebase.html)

設計引物擴增實驗序列——Genefisher
Primer 3

蛋白質序列分析及結構預測：
1.預測蛋白質的分子量及等電點:ExPASy（Compute pI/Mw）
2.分析蛋白質的基本物理化學性質：ExPASy（ProtParam）
3.分析蛋白質的親水性和疏水性：ExPASy（ProtScale）
4.分析蛋白質在各種蛋白酶和各種化學試劑處理後的內切產物：ExPASy（PeptideMass） [* ：kinase K]
5.分析蛋白質的信號肽：ExPASy（SignalP）
6.預測蛋白質的二級結構：ExPASy（Jpred 3）

多物種分子系統發育分析：EMBL（www.ebi.ac.uk/embl/)--Toolbox--Clustal2W

人脂聯素蛋白質序列：NP_004788
人類胰島素生長因子IB前體：P05019

㈢ zinc資料庫裡面有多少小分子

在生物醫學信息學領域,資料庫和服務的定義與計算機領域有很大的不同,如果要問NCBI過去,現在或將來會有多少資料庫,恐怕連NCBI自己都說不清楚.要是一個一個資料庫講下來,9999個字肯定不夠用.這里有一個列表供您參考http://www.ncbi.nlm.nih.gov/guide/all/.
NCBI的產生和發展是在美國和全球生物學高速發展,高通量數據急速產生,而缺乏有效的數據分析方法的背景下產生,起初它主要任務是數據的存儲和查詢.只不過其存儲的數據大多以高通量數據為主,例如基因測序,基因組,SNP,基因晶元,小分子化合物和GWAS數據等.這些數據的共享,極大地促進了生物信息學發展.
按照數據->樣式->知識->智慧的發展模式,NCBI主要起到了一個為生物學家提供數據的角色.不過,NCBI目前也不斷地在調整自己的角色.例如,生物醫學文獻.NCBI在從NLM繼承過來的pubmed的基礎,提供以PMC資料庫為核心的全文文獻服務.PubMed資料庫應該是全球生物學家使用頻率最高的資料庫.NCBI最近對pubmed的改版,雖然沒有實質性的改變,但其按照用戶體驗進行的修改,足見其對該資料庫的重視.
另外,NCBI目前不斷地在引入高學歷生物學人才對其資料庫的質量進行控制.以dbSNP為例,其正在通過與領域專家的合作將突變數據與人類表型數據進行關聯.
總得來講,NCBI的發展是與生物學高通量數據產生密切相關,它以經不在局限於提供數據存儲與查詢,其未來的發展必將發展為一個大型的、綜合的知識庫.到那時NCBI會不會免費,就要另當別論了.很顯然沒有人會將自己的手稿拱手讓人.如果真有那麼一天,不知道從中會產生多少專利和知識產權.

㈣怎麼篩選PDB資料庫中的蛋白

打開PDB資料庫輸入你知道的PDB編號如果不知道編號就輸入英文名稱或者簡稱,搜索後出現蛋白質列表一個個看看哪個是你想要的.點一下,右上方有下載鏈接.下載xxx.pdb到本地磁碟後用pymol或者rasmol軟體打開看.或者用文本編輯器打開看詳細的附加信息.

㈤求：一些好的有關於自然科學的英文網站！

果蔬小分子資料庫

與果蔬小分子資料庫相關的內容