當前位置:首頁 » 數據倉庫 » 生物信息學一級資料庫
擴展閱讀
webinf下怎麼引入js 2023-08-31 21:54:13
堡壘機怎麼打開web 2023-08-31 21:54:11

生物信息學一級資料庫

發布時間: 2023-03-05 14:12:43

『壹』 生物信息學資料庫之間的聯系方式有

收集,維護,生物信息學資料庫可以分為4大類:即基因組資料庫、核酸和蛋白質一級結構資料庫、生物大分子三維空間結構資料庫。

『貳』 列舉常用的生物信息學資料庫及序列對比常用軟體及特點

一般來說所用的分析工具有在線跟下載的 下面簡要列舉一些常用在線軟體的使用 1、使用VecScreen工具,分析下列未知序列,輸出序列長度、載體序列的區域、可能使用的克隆載體都有哪些。一、步驟:
打開google 首頁,搜索VecScreen,進入VecScreen首頁,復制序列,運行,View report。
二、結果:
輸出序列長度918bp,
載體序列的區域456bp——854bp.
克隆載體:M13mp18 phage,pGEM-13Zf(+),pBR322,pRKW2。
2、使用相應工具,分析下列未知序列的重復序列情況,輸出重復序列的區域、包含的所有重復序列的類型、重復序列的總長度及Masked Sequence。
一、步驟:
進入google首頁,進入ICBI主頁,對序列進行BLAST。得出序列是human的。
進入google首頁,搜索RepeatMasker,進入RepeatMasker主頁,進入RepeatMasking,復制序列,DNA source選擇human,運行!點擊超鏈接,在結果中選擇
Annotation File :RM2sequpload_1287631711.out.html
3、使用CpGPlot/CpGReport/Isochore工具,分析下列未知序列,輸出CpG島的長度、區域、GC數量、所佔的百分比及Obs/Exp值。一、步驟:
進入google首頁,搜索CpGPlot,進入CpGPlot主頁,program中選擇cpgreport復制序列,運行!
二、結果:

CpG島的長度:385bp
區域:48——432;
GC數量:Sum C+G=297,百分數=77.14
Obs/Exp:1.01
4、預測下面序列的啟動子,輸出可能的啟動子序列及相應的位置。一、步驟:
進入google首頁,進入ICBI主頁,對序列進行BLAST。得出序列是human的
進入google首頁,搜索Neural Network Promoter Prediction,進入主頁,復制序列,選擇eukaryote,運行!
二、結果:

位置:711—761 ,1388—1438,1755—1805;
5、運用Splice Site Prediction工具分析下面序列,分別輸出內含子-外顯子剪接位點給體和受體的區域及剪接處位置的鹼基。一、步驟:
進入google首頁,進入ICBI主頁,對序列進行BLAST。得出序列是human的
進入google首頁,搜索Splice Site Prediction,進入主頁,復制序列。Organism選擇Human or other。其他默認,運行!
二、結果:
供體:

受體:
6、對下面序列進行六框翻譯,利用GENESCAN綜合分析(首先確定給定序列的物種來源)哪個ORF是正確的,輸出六框翻譯(抓圖)和GENESCAN結果(包括predicted genes/exons 和 predicted peptide sequence(s) 兩個部分)。一、步驟:
進入google首頁,進入ICBI主頁,對序列進行BLAST。得出序列是Zea的
進入google首頁;搜索NCBI,進入主頁,選擇all resources(A~Z),選擇O,選擇ORF finder。復制序列,默認,運行!
二、結果:ORF圖
三、步驟:進入google首頁,搜索GENESCAN,進入主頁,Organism:Maize, ,其他默認,運行!
四、結果:
G7、進入REBASE限制性內切酶資料庫,輸出AluI、MboI、EcoI三種內酶的Recognition Sequence和Type。
一、步驟:進入google首頁,google in English,搜索REBASE,進入主頁, 分別輸入AluI、MboI、EcoI,運行!
在MboI中選擇第一個,EcoI選擇第二個。
二、結果:
ENSCAN圖
8、使用引物設計工具,針對下列未知序列設計一對引物,要求引物長度為20-25bp,擴增產物長度300-500bp,退火溫度為50-60℃。請寫出選擇的一對引物(Forward Primer and Reverse Primer)、及相應的GC含量、引物的位點、Tm值和產物長度。一、步驟:進入google首頁,搜索genefisher,進入主頁,復制fasta格式,chechk input, sunmit, ; ;設置一下引物長度為20-25bp,擴增產物長度300-500bp,退火溫度為50-60℃; 。
二、結果:

GC含量:

引物的位點:

Tm值:

產物長度:。

9、將下面的序列用NEBcutter 2.0工具分析,用產生平末端及有四個酶切位點的酶進行酶切,並用抓圖提交膠圖(view gel),要求1.4% agarose和Marker為100bp DNA Ladder。
一、步驟:
進入google首頁,進入ICBI主頁,對序列進行BLAST,得知是linear。
進入google首頁,搜索NEBcutter 2.0,進入主頁,選擇linear,運行!選擇custom digest, ,把「1」改為「4」,選擇平末端,後digest。View gel。選擇1.4% agarose和Marker為100bp。
二、結果:

然後就是蛋白質的了一般都在expasy里swiss-prot 適用於檢索的 compute pi/mw 求理論分子量 分子量 protparam物理化學性質 protscale親水性疏水性 peptidemass分析蛋白酶和化學試劑處理後的內切產物
NCBI(www.ncbi.nlm.nih.gov)-GenBank資料庫

資料庫相似性搜索——核酸序列與核酸資料庫比較(BLASTN)
蛋白質序列與資料庫中蛋白質序列比較(BLASTP)
兩序列比對(Align two sequences)

DNA序列分析——ORF Finder(www.ncbi.nlm.nih.gov/gorf/gorf.html)

分析實驗序列外顯子部分——GENSCAN(http://genes.mit.e/GENSCAN.html)
分析實驗序列的可能酶切位點——NEBcutter2.0 (http://tools.neb.com/NEBcutter2/index.php)
註: Custom digest -- view gel

限制性內切酶資料庫——REBASE(http://rebase.neb.com/rebase/rebase.html)

設計引物擴增實驗序列——Genefisher
Primer 3

蛋白質序列分析及結構預測:
1.預測蛋白質的分子量及等電點:ExPASy(Compute pI/Mw)
2.分析蛋白質的基本物理化學性質:ExPASy(ProtParam)
3.分析蛋白質的親水性和疏水性:ExPASy(ProtScale)
4.分析蛋白質在各種蛋白酶和各種化學試劑處理後的內切產物:ExPASy(PeptideMass) [* :kinase K]
5.分析蛋白質的信號肽:ExPASy(SignalP)
6.預測蛋白質的二級結構:ExPASy(Jpred 3)

多物種分子系統發育分析:EMBL(www.ebi.ac.uk/embl/)--Toolbox--Clustal2W

人脂聯素蛋白質序列:NP_004788
人類胰島素生長因子IB前體:P05019

『叄』 生物信息學pfam是一級資料庫還是二級資料庫

根據需要從一級資料庫中搜集對象的相關數據集合而成的就是二級資料庫.
像genebank,EMBL這種都是不加選擇的一級資料庫,只要是實驗獲得的,不管什麼東西的序列,哪怕是不完整的序列都能上傳,而且它們的數據也有可能有重復.如果有某個人專門研究細菌的鑒定,需要用到正式被認可的16srDNA序列,為了研究方便,把這些一級資料庫的各個種類細菌的公認標准16srDNA序列的數據進行整理,重新構建了一個資料庫,這就是所謂的二級資料庫.如果不構建,直接用一級資料庫做blast,就會得出很多未被承認甚至不完整的序列,還要人工一個個看過去,找出公認的標准序列,這樣就很麻煩.我舉得例子在現實中就是韓國的EzTaxon.

『肆』 in cell and developmental biology屬於哪個資料庫

in cell and developmental biology屬於生物信息學資料庫
生物信息資料庫可以分為一級資料庫和二級資料庫。
一級資料庫的數據都直接來源於實驗獲得的原始數據,只經過簡單的歸類整理和注釋;
二級資料庫是在一級資料庫、實驗數據和理論分析的基礎上針對特定目標衍生而來,是對生物學知識和信息的進一步整理。國際上著名的一級核酸資料庫有Genbank資料庫、EMBL核酸庫和DDBJ庫等;蛋白質序列資料庫有SWISS-PROT、PIR等;蛋白質結構庫有PDB等。國際上二級生物學資料庫非常多,它們因針對不同的研究內容和需要而各具特色,如人類基因組圖譜庫GDB、轉錄因子和結合位點庫TRANSFAC、蛋白質結構家族分類庫SCOP等等。

『伍』 什麼時候需要利用生物信息學獲取核酸序列信息

什麼時候需要利用生物信息學獲取核酸序列信息
1.序列比對
序列比對其意義是從核酸、氨基酸的層次來比較兩個或兩個以上符號序列的相似性或不相似性,進而推測其結構功能及進化上的聯系。研究序列相似性的目的是通過相似的序列得到相似的結構或功能,也可以通過序列的相似性判別序列之間的同源性,推測序列之間的進化關系。序列比對是生物信息學的基礎,非常重要。
序列比對中最基礎的是雙序列比對,雙序列比較又分為全局序列比較和局部序列比較,這兩種比較均可用動態程序設計方法有效解決。在實際應用中,某些在生物學上有重要意義的相似性不是僅僅分析單條序列,只能通過將多個序列對比排列起來才能識別。比如當面對許多不同生物但蛋白質功能相似時,我們可能想知道序列的哪些部分是相似的,哪些部分是不同的,進而分析蛋白質的結構和功能。為獲得這些信息,我們需要對這些序列進行多序列比對。多重序列比對演算法有動態規劃演算法、星形比對演算法、樹形比對演算法、遺傳演算法、模擬退火演算法、隱馬爾可夫模型等,這些演算法都可以通過計算機得以解決。
2.資料庫搜索
隨著人類基因組計劃的實施,實驗數據急劇增加,數據的標准化和檢驗成為信息處理的第一步工作,並在此基礎上建立資料庫,存儲和管理基因組信息。這就需要藉助計算機存儲大量的生物學實驗數據,通過對這些數據按一定功能分類整理,形成了數以百計的生物信息資料庫,並要求有高效的程序對這些資料庫進行查詢,以此來滿足生物學工作者的需要。資料庫包括一級資料庫和二級資料庫,一級資料庫直接來源於實驗獲得的原始數據,只經過簡單的歸類整理和注釋;二級資料庫是對基本數據進行分析、提煉加工後提取的有用信息。
分子生物學的三大核心資料庫是GenBank核酸序列資料庫,SWISS-PROT蛋白質序列資料庫和PDB生物大分子結構資料庫,這三大資料庫為全世界分子生物學和醫學研究人員了解生物分子信息的組織和結構,破譯基因組信息提供了必要的支撐。但是用傳統的手工分析方法來處理數據顯然已經無法跟上新時代的步伐,對於大量的實驗結果必須利用計算機進行自動分析,以此來尋找數據之間存在的密切關系,並且用來解決實際中的問題。
3.基因組序列分析
基因組學研究的首要目標是獲得人的整套遺傳密碼,要得到人的全部遺傳密碼就要把人的基因組打碎,測完每個小的序列後再把它們重新拼接起來。所以目前生物信息學的大量工作是針對基因組DNA序列的,建立快速而又准確的DNA序列分析方法對研究基因的結構和功能有非常重要的意義。對於基因組序列,人們比較關心的是從序列中找到基因及其表達調控信息,比如對於未知基因,我們就可以通過把它與已知的基因序列進行比較,從而了解該基因相關的生理功能或者提供疾病發病機理的信息,從而為研發新葯或對疾病的治療提供一定的依據,使我們更全面地了解基因的結構,認識基因的功能。因此,如何讓計算機有效地管理和運行海量的數據也是一個重要問題。
4.蛋白質結構預測
蛋白質是組成生物體的基本物質,幾乎一切生命活動都要通過蛋白質的結構與功能體現出來,因此分析處理蛋白質數據也是相當重要的,蛋白質的生物功能由蛋白質的結構所決定,因此根據蛋白質序列預測蛋白質結構是很重要的問題,這就需要分析大量的數據,從中找出蛋白質序列和結構之間存在的關系與規律。
蛋白質結構預測分為二級結構預測和空間結構預測,在二級結構預測方面主要有以下幾種不同的方法:①基於統計信息;②基於物理化學性質;③基於序列模式;④基於多層神經網路;⑤基於圖論;⑥基於多元統計;⑦基於機器學習的專家規則;⑧最鄰近演算法。目前大多數二級結構預測的演算法都是由序列比對演算法BLAST、FASTA、CLUSTALW產生的經過比對的序列進行二級結構預測。雖然二級結構的預測方法其准確率已經可以達到80%以上,但二級結構預測的准確性還有待提高。
在實際進行蛋白質二級結構預測時,往往會把結構實驗結果、序列比對結果、蛋白質結構預測結果,還有各種預測方法結合起來,比較常用的是同時使用多個軟體進行預測,把各個軟體預測結果分析後得出比較接近實際的蛋白質二級結構。將序列比對與二級結構預測相結合也是一種常見的綜合分析方法。
蛋白質二級結構指蛋白質多肽鏈本身的折疊和盤繞的方式。二級結構主要有α-螺旋、β-折疊、β-轉角等幾種形式,它們是構成蛋白質高級結構的基本要素,常見的二級結構有α-螺旋和β-折疊。三級結構是在二級結構的基礎上進一步盤繞,折疊形成的。研究蛋白質空間結構的目標是為了了解蛋白質與三維結構的關系,預測蛋白質的二級結構預測只是預測蛋白質三維形狀的第一步,蛋白質折疊問題是非常復雜的,這就導致了蛋白質的空間結構預測的復雜性。蛋白質三維結構預測方法有:同源模型化方法、線索化方法和從頭預測的方法但是無論用哪一種方法,結果都是預測,採用不同的演算法,可能產生不同的結果,因此還需要研究新的理論計算方法來預測蛋白質的三維結構。
圖4.1 蛋白質結構
目前,已知蛋白質序列資料庫中的數據量遠遠超過結構資料庫中的數據量,並且這種差距會隨著DNA序列分析技術和基因識別方法的進步越來越大,人們希望產生蛋白質結構的進度能夠跟上產生蛋白質序列的速度,這就需要對蛋白質結構預測發展新的理論分析方法,目前還沒有一個演算法能夠很好地預測出一個蛋白的三維結構形狀,蛋白質的結構預測被認為是當代計算機科學要解決的最重要的問題之一,因此蛋白質結構預測的演算法在分子生物學中顯得尤為重要。
5.結束語
現如今計算機的發展已滲透到各個領域,生物學中的大量實驗數據的處理和理論分析也需要有相應的計算機程序來完成,因此隨著現代科技的發展,生物技術與計算機信息技術的融合已成為大勢所趨。生物學研究過程中產生的海量數據需要強有力的數據處理分析工具,這樣計算機科學技術就成為了生物科學家的必然選擇,雖然人們已經利用計算機技術解決了很多生物學上的難題,但是如何利用計算機更好地處理生物學中的數據仍是一個長期而又復雜的課題。