⑴ 幾種常用Web資料庫的比較
SWISSPROT的序列經過嚴格審核,注釋完善,但數量仍較
少。
PIR數據量較大,但包含未經驗證的序列,注釋也不完善。
TrEMBL和GenPept的數據量最大,且隨核酸序列資料庫的
更新而更新,但是由於TrEMBL和GenPept均是由核酸序列
經過計算機程序翻譯生成的,這兩個資料庫中的序列錯誤
率較大,並存在較多的冗餘序列。
UniProt中的序列具有較好的代表性,數據較完整。
⑵ 什麼是常用的三個資料庫
目前,資料庫管理系統關系型資料庫為主導產品的商品化,技術相對成熟。雖然面向對象的資料庫管理系統的先進技術,資料庫易於開發,維護,但尚未成熟的產品。國際和國內領先的關系資料庫管理系統,甲骨文,Sybase,Informix和INGRES。這些產品支持多種平台,如UNIX,VMS,Windows上,而不是同一級別的支持。和成熟的IBM的DB2關系資料庫。但是,DB2是內嵌於IBM的AS/400系列機,只支持OS/400操作系統。
?1.MySQL
?MySQL是最受歡迎的開源SQL資料庫管理系統,由MySQL AB公司,發布和支持。 MySQL AB是基於MySQL開發一個商業公司,它是利用與開源值相結合的一個成功的商業模式?和方法論的第二代開源公司。 MySQL是MySQL AB的注冊商標。
?MySQL是一個快速,多線程,多用戶和健壯的SQL資料庫伺服器。 MySQL伺服器支持關鍵任務,重負載生產系統的使用,它可以嵌入到一個大配置(大規模部署)軟體。
?的MySQL與其他資料庫管理系統相比,具有以下優點:
?(1)MySQL是一個關系資料庫管理系統。
?(2)MySQL是開源。
?(3)MySQL伺服器是一個快速,可靠和易於使用的資料庫伺服器。
?(4)在MySQL伺服器的客戶機/伺服器或嵌入式系統。
?(5)可以使用MySQL軟體。
2.SQL Server的嗎?
?SQL Server是由微軟開發的資料庫管理系統,是目前最流行的資料庫,用於存儲在網路上的數據,它已被廣泛用於電子商務,銀行,保險,電力和其他資料庫相關的產業。
?SQL Server 2005的最新版本,它只能在Windows作業系統的穩定運行是非常重要的資料庫。並行實施和共存模型並不成熟,這是很難對付越來越多的用戶和數據量是有限的,可擴展性。
?SQL Server提供了網路和電子商務功能,如豐富的XML和Internet標準的支持,輕松且安全地通過Web訪問的數據的范圍很廣,有一個強大,靈活和網路,基於安全和應用管理。此外,由於它的易用性和友好的用戶界面,通過廣大用戶的好評,。
?3.Oracle
?提出的資料庫,該公司首先想到的,通常是甲骨文(Oracle)。該公司成立於1977年,原是一個專門開發的資料庫公司。甲骨文一直在資料庫領域的領導者。 1984年,第一個關系資料庫轉移到一台台式電腦。然後,Oracle5率先推出的分布式資料庫,客戶機/伺服器體系結構的新概念。甲骨文公司的第一行鎖定模式和對稱多處理計算機的支持......最新的Oracle對象技術,成為關系 - 對象資料庫系統。目前,甲骨文的產品涵蓋了幾十個型號的大,中,小型機,Oracle資料庫已成為世界上使用最廣泛的關系數據。
Oracle資料庫產品具有以下優良特性。
?(一)兼容性
?Oracle產品使用標準的SQL,和美國國家標准技術局(NIST)測試後。兼容IBM的SQL / DS,DB2中,安格爾的IDMS / R。
?(2)可移植性
??甲骨文的產品,可以廣泛的硬體和操作系統平台上運行。可以安裝在超過70種大不同,VMS系統的DOS,UNIX上,Windows和其他操作系統,小型機;
?(3)協會
甲骨文與各種通信網路連接,支持各種協議(TCP / IP協議說,DECnet,LU6.2工作等)。?
?(4)高生產率
?Oracle提供了多種開發工具,可以極大地方便進一步的發展。
?(5)開放
?Oracle的兼容性,可移植性,連接性和高生產力的Oracle RDBMS具有良好的開放性。
?4.Sybase
?馬克B. Hiffman和羅伯特·愛潑斯坦,1984年,創建了Sybase公司,並於1987年推出了Sybase資料庫產品。 SYBASE主要有三種版本:一是UNIX操作系統版本下運行的Novell Netware環境下運行的版本; Windows NT環境下運行的版本。 UNIX操作系統,目前應用最廣泛使用的SCO UNIX SYBASE 10 SYABSE- 11。
??的Sybase資料庫的特點:
?(1)它是基於客戶機/伺服器體系結構的資料庫。
?(2)它是真正開放的資料庫。
?(3)它是一種高性能的資料庫。
?5.DB2
?DB2是內嵌在IBM的AS/400系統的資料庫管理系統,直接從硬體支持。它支持標準的SQL語言,異構資料庫連接的網關。因此,它具有速度快,可靠性好等優點。但是,只有硬體平台選擇了IBM的AS/400,可以選擇使用DB2資料庫管理系統。
?DB2可以運行在所有主要平台(包括Windows),最適於海量數據。
?DB2是使用最廣泛的企業級,而國內約5%,在1997年,在世界最大的500家企業,近85%的DB2資料庫伺服器。
?此外,微軟的Access資料庫,FoxPro資料庫。現在有這么多的資料庫系統,在游戲中進行編程,應該選擇什麼樣的資料庫?首要的原則,根據實際需要,另一方面,考慮游戲開發預算。現在常用的資料庫:SQL Server中,我的SQL,甲骨文,FoxPro的。 MySQL是一個免費的資料庫系統,其功能與一個標準的資料庫功能,因此,建議使用獨立製片人。甲骨文雖然功能強大,但它是用於商業用途,是目前在比賽中很少使用。
⑶ Swissprot資料庫如何找出蛋白質的相似序列
總的而言有下列12種
0 = pairwise,顯示具體匹配信息(預設)
1 = query-anchored showing identities,查詢-比上區域,顯示一致性
2 = query-anchored no identities,查詢-比上區域,不顯示一致性
3 = flat query-anchored, show identities,查詢-比上區域的屏文形式,顯示一致性
4 = flat query-anchored, no identities,查詢-比上區域的屏文形式,不顯示一致性
5 = query-anchored no identities and blunt ends,查詢-比上區域,不顯示一致性,無突然的結束
6 = flat query-anchored, no identities and blunt ends,查詢-比上區域的屏文形式,不顯示一致性
7 = XML Blast output,XML格式的輸出
8 = tabular,TAB格式的輸出
9 =tabular with comment lines,帶注釋行的TAB格式的輸出
10 =ASN, text,文本方式的ASN格式輸出
11 =ASN, binary [Integer] default = 0,二進制方式的ASN格式輸出
但是如果你在網站上進行,一般就為2-5種,如0 = pairwise, 8 = tabular,7 = XML Blast output,看你在哪個站點進行了
⑷ 如何利用swissprot預測磷酸化位點
基組注釋析主要包括哪些內容
基組注釋包括面內容:
(1) 重復序列預測通比已知重復序列資料庫找序列包含重復序列識別類型並轉化N或者X統計各種類型重復序列布
(2) 編碼基預測通轉錄組或EST數據比拼接基組序列找編碼基位置預測編碼基結構或者通專業外顯預測軟體預測編碼基外顯結構
(3) RNA基預測通比已知RNA資料庫或者通物信息(bioinformation)軟體預測找些RNA基並進行類
(4) 調控序列假基預測
基功能注釋使用資料庫包括NT/NR, SwissProt/TrEMbl, InterPro, KEGG, COG, Gene ontology等使用比blast找同源相近基並注釋功能
⑸ 蛋白質序列資料庫包含哪些內容
蛋白質資料庫
1. PIR和PSDPIR國際蛋白質序列資料庫(PSD)是由蛋白質信息資源(PIR)、慕尼黑蛋白質序列信息中心(MIPS)和日本國際蛋白質序列資料庫(JIPID)共同維護的國際上最大的公共蛋白質序列資料庫。這是一個全面的、經過注釋的、非冗餘的蛋白質序列資料庫,包含超過142,000條蛋白質序列(至99年9月),其中包括來自幾十個完整基因組的蛋白質序列。所有序列數據都經過整理,超過99%的序列已按蛋白質家族分類,一半以上還按蛋白質超家族進行了分類。PSD的注釋中還包括對許多序列、結構、基因組和文獻資料庫的交叉索引,以及資料庫內部條目之間的索引,這些內部索引幫助用戶在包括復合物、酶-底物相互作用、活化和調控級聯和具有共同特徵的條目之間方便的檢索。每季度都發行一次完整的資料庫,每周可以得到更新部分。
PSD資料庫有幾個輔助資料庫,如基於超家族的非冗餘庫等。PIR提供三類序列搜索服務:基於文本的互動式檢索;標準的序列相似性搜索,包括BLAST、FASTA等;結合序列相似性、注釋信息和蛋白質家族信息的高級搜索,包括按注釋分類的相似性搜索、結構域搜索GeneFIND等。
PIR和PSD的網址是:http://pir.georgetown.e/。
資料庫下載地址是:ftp://nbrfa.georgetown.e/pir/。
2. SWISS-PROT
SWISS-PROT是經過注釋的蛋白質序列資料庫,由歐洲生物信息學研究所(EBI)維護。資料庫由蛋白質序列條目構成,每個條目包含蛋白質序列、引用文獻信息、分類學信息、注釋等,注釋中包括蛋白質的功能、轉錄後修飾、特殊位點和區域、二級結構、四級結構、與其它序列的相似性、序列殘缺與疾病的關系、序列變異體和沖突等信息。SWISS-PROT中盡可能減少了冗餘序列,並與其它30多個數據建立了交叉引用,其中包括核酸序列庫、蛋白質序列庫和蛋白質結構庫等。
利用序列提取系統(SRS)可以方便地檢索SWISS-PROT和其它EBI的資料庫。
SWISS-PROT只接受直接測序獲得的蛋白質序列,序列提交可以在其Web頁面上完成。
SWISS-PROT的網址是:http://www.ebi.ac.uk/swissprot/。
3. PROSITE
PROSITE資料庫收集了生物學有顯著意義的蛋白質位點和序列模式,並能根據這些位點和模式快速和可靠地鑒別一個未知功能的蛋白質序列應該屬於哪一個蛋白質家族。有的情況下,某個蛋白質與已知功能蛋白質的整體序列相似性很低,但由於功能的需要保留了與功能密切相關的序列模式,這樣就可能通過PROSITE的搜索找到隱含的功能motif,因此是序列分析的有效工具。PROSITE中涉及的序列模式包括酶的催化位點、配體結合位點、與金屬離子結合的殘基、二硫鍵的半胱氨酸、與小分子或其它蛋白質結合的區域等;除了序列模式之外,PROSITE還包括由多序列比對構建的profile,能更敏感地發現序列與profile的相似性。PROSITE的主頁上提供各種相關檢索服務。
PROSITE的網址是:http://www.expasy.ch/prosite/。
4. PDB
蛋白質數據倉庫(PDB)是國際上唯一的生物大分子結構數據檔案庫,由美國Brookhaven國家實驗室建立。PDB收集的數據來源於X光晶體衍射和核磁共振(NMR)的數據,經過整理和確認後存檔而成。目前PDB資料庫的維護由結構生物信息學研究合作組織(RCSB)負責。RCSB的主伺服器和世界各地的鏡像伺服器提供資料庫的檢索和下載服務,以及關於PDB數據文件格式和其它文檔的說明,PDB數據還可以從發行的光碟獲得。使用Rasmol等軟體可以在計算機上按PDB文件顯示生物大分子的三維結構。
RCSB的PDB資料庫網址是:http://www.rcsb.org/pdb/。
5. SCOP
蛋白質結構分類(SCOP)資料庫詳細描述了已知的蛋白質結構之間的關系。分類基於若干層次:家族,描述相近的進化關系;超家族,描述遠源的進化關系;折疊子(fold),描述空間幾何結構的關系;折疊類,所有折疊子被歸於全α、全β、α/β、α+β和多結構域等幾個大類。SCOP還提供一個非冗餘的ASTRAIL序列庫,這個庫通常被用來評估各種序列比對演算法。此外,SCOP還提供一個PDB-ISL中介序列庫,通過與這個庫中序列的兩兩比對,可以找到與未知結構序列遠緣的已知結構序列。
SCOP的網址是:http://scop.mrc-lmb.cam.ac.uk/scop/。
6. COG
蛋白質直系同源簇(COGs)資料庫是對細菌、藻類和真核生物的21個完整基因組的編碼蛋白,根據系統進化關系分類構建而成。COG庫對於預測單個蛋白質的功能和整個新基因組中蛋白質的功能都很有用。利用COGNITOR程序,可以把某個蛋白質與所有COGs中的蛋白質進行比對,並把它歸入適當的COG簇。COG庫提供了對COG分類數據的檢索和查詢,基於Web的COGNITOR服務,系統進化模式的查詢服務等。
COG庫的網址是:http://www.ncbi.nlm.nih.gov/COG。
下載COG庫和COGNITOR程序在:ftp://ncbi.nlm.nih.gov/pub/COG。
⑹ 怎麼在NCBI上查酵母中的TPS/TPP基因序列
一般而言,在NCBI(也就是Entrez數據系統)查基因序列,主要是搜索的NCBI的Genbank資料庫的核酸與蛋白質序列,方法見六零六406。由於Genbank起初是一個類似BBS的序列資料庫系統,雖然目前有人工核對序列,但其資料庫中的序列質量還是不如Swissprot資料庫。最近,我們在投遞序列過程中,其管理員與我們進行了很多的交流(基本上都是PhD),所以他們肯定也開始注重數據質量了。但是,從數據規模上,NCBI還是比較全的,畢竟它有與EBI和DDBJ的數據每日交換機制。另外,NCBI提供的blast服務,也可以幫助你獲得更多的同源序列。
因此,我建議首先從Swissprot上查詢,下面以TPS為例:
1搜索swissprot中的TPS基因
http://www.uniprot.org/uniprot/?query=TPS&sort=score
我們得到兩個酵母相關基因,利用你的專業知識判斷選擇一個或兩個。
2點擊進入P38426(TPS3_YEAST),查看蛋白質序列是否你想要的。
3進入NCBI的Blast服務頁面,
http://blast.ncbi.nlm.nih.gov/Blast.cgi
在basicblast部分,你有兩個選擇:1)proteinblast->搜索蛋白質序列;2)tblastN->搜索核酸序列。
4進入程序搜索頁面,將Swissprot的登錄號P38426貼如輸入框。
5再下面就是如何使用Blast。
6在Blast的結果中,你可以根據序列的相似性找你感興趣的基因序列。
附圖:一個blast的結果
⑺ 蛋白質序列資料庫的資料庫分類
PIR資料庫按照數據的性質和注釋層次分四個不同部分,分別為PIR1、PIR2、PIR3和PIR4。PIR1中的序列已經驗證,注釋最為詳盡;PIR2中包含尚未確定的冗餘序列;PIR3中的序列尚未加以檢驗,也未加註釋; 而PIR4中則包括了其它各種渠道獲得的序列,既未驗證,也無注釋。除了PIR外,另一個重要的蛋白質序列資料庫則是SwissProt。該資料庫由瑞士日內瓦大學於1986年創建,目前由瑞士生物信息學研究所(Swiss Institute of Bioinformatics,簡稱SIB)和歐洲生物信息學研究所 EBI共同維護和管理。瑞士生物信息研究所下屬的蛋白質分析專家系統(Expert Protein Analysis System,,簡稱ExPASy)的Web伺服器除了開發和維護SwissProt資料庫外,也是國際上蛋白質組和蛋白質分子模型研究的中心,為用戶提供大量蛋白質信息資源。北京大學生物信息中心設有ExPASy的鏡象。PIR和SwissProt是創建最早、使用最為廣泛的兩個蛋白質資料庫。隨著各種模式生物基因組計劃的進展,DNA序列特別是EST序列大量進入核酸序列資料庫。蛋白質序列資料庫TrEMBL是從EMBL中的cDNA序列翻譯得到的。TrEMBL資料庫創建是於1996年[Bairoch, 2000],意為「Translation of EMBL」。該資料庫採用SwissProt資料庫格式,包含EMBL資料庫中所有編碼序列的翻譯。TrEMBL資料庫分兩部分,SP-TrEMBL和 REM-TrEMBL。SP-TrEMBL中的條目最終將歸並到SwissProt資料庫中。而Rem-TrEMBL則包括其它剩餘序列,包括免疫球蛋白、T細胞受體、少於8個氨基酸殘基的小肽、合成序列、專利序列等。與TrEMBL類似,GenPept是由GenBank翻譯得到的蛋白質序列。由於TrEMBL和GenPept均是由核酸序列通過計算機程序翻譯生成,這兩個資料庫中的序列錯誤率較大,均有較大的冗餘度。另一個常用的蛋白質序列資料庫是已知三維結構蛋白質的一級結構序列資料庫NRL-3D[Namboodiri, 1990]。該資料庫的序列是從三維結構資料庫PDB中提取出來。
⑻ 為什麼說swiss-prot是重要的蛋白質序列資料庫
SWISS-PROT是含有詳細注釋內容的蛋白質序列資料庫,由歐洲生物信息學中心(EBI)維護,目前已合並入 UniProt資料庫,旨在幫助基因組和蛋白質組以及相關的分子生物學研究人員提供有關蛋白質氨基酸序列的最新信息。
SWISS-PROT中盡可能減少了冗餘序列,並與其它30多個數據建立
了交叉引用,其中包括核酸序列庫、蛋白質序列庫和蛋白質結構庫等。SWISS-PROT資料庫包含了EMBL核酸序列資料庫中被經過仔細檢查和准確注釋了
的蛋白質序列,一般地,任何蛋白質序列數據的搜尋和比較都應從SWISS-PROT開始。
SWISS-PROT蛋白質序列數據由大量序列條目組成,每一個序列條目
有其自己的格式。為了標准化的目的,SWISS-PROT的格式與EMBL核酸序列資料庫的格式盡可能類似。SWISS-PROT涉及已知蛋白質的序列、
引用文獻信息、分類學信息、注釋等,注釋中包括蛋白質的功能、轉錄後修飾、特殊位點和區域、二級結構、四級結構、與其它序列的相似性、序列殘缺與疾病的關
系、序列變異體和沖突等信息。利用序列提取系統(SRS)可以方便地檢索SWISS-PROT和其它EBI的資料庫。SWISS-PROT只接受直接測序
獲得的蛋白質序列,序列提交可以在其Web頁面上完成。
⑼ tair和swissprot資料庫 哪個好
直接在主頁右上角的搜索欄里輸入要找的基因,找到後點擊進入,往下翻翻頁面就會看到一堆salk號,那些就是不同插入形式的突變體。