A. 基因組資料庫的介紹
基因組資料庫(GDB)為人類基因組計劃(HGP)保存和處理基因組圖譜數據。GDB的目標是構建關於人類基因組的網路全書,除了構建基因組圖譜之外,還開發了描述序列水平的基因組內容的方法,包括序列變異和其它對功能和表型的描述。
B. 哪個資料庫可以查一個基因在不同組織器官的表達水平
牛人,頂一個:hand: 做一下序列比對看一下其他植物中有沒有序列相似度高的基因, 做一些開花相關基因的表達分 亞細胞定位?如何定位,怎麼做? 肯定是罩陵和灶悶橋花器官的生隱猛.
C. 什麼在線網站可以做基因間的相關性分析
沒有在線網站可以做基因間的相關性分析
現在早悄到達只要輸入一個基因就能知道與它相關的基因的關系。基因是非常復雜的有機體,要搞懂肆睜鄭是非常不容易的裂頌。
D. 這幾個網站怎麼使用
這四個茄孝差網站功能各異,每一個的用法都可以講上一天。具體的用法要你自己去網站上去摸索,到文獻中去尋找,另外要根據你自己的目的去探索。
這四個網站分別對應的功能是:直系同源基因資料庫、基因組資料庫、Tigre的直系同源基因資料庫(真核生物)和基因本體資料庫。
從總體上講,這些網站的用法有:數據瀏覽、FTP數據下載和自己編寫程序分顫皮析數據。
如果你的研究和直系同源基因相關,應該慎虧使用1,3
如果和基因的功能注釋相關應該使用4,
如果關系測序基因組情況應該去Ensembl,比較全。
我的感覺1、2、4這三個資料庫用的比較多,對3不甚了解。
E. 如何使用geo資料庫分析基因表達與預後的關系
在NCBI的GEO資料庫中,系列(series)中matrix目錄下的GSExxx_series_matrix.txt.gz文件,其中的數據是什麼含義。拿哪是不是別人已經標准化枯悔好的數據(而且是log2處理過的),我可以用來直接求倍數然後看錶達差異?
GSExxx_series_matrix.txt.gz數據格式和樓主的數據截消敗碼圖類似,差別在於列標題,樓主的列標題是GSMxxxxxx.CEL,而從GEO下載的GSExxx_series_matrix.txt.gz的數據,列標題是GSMxxxxxx,無「.CEL」。
ID_REF GSM413894 GSM413895 GSM413896 GSM413897 GSM413898 GSM413899 GSM413900 GSM413901
AFFX-BioB-3_at 8.472861 7.58379 7.726437 7.808923 8.604332 8.60782 8.343771 8.628157
AFFX-BioB-5_at 8.65537 7.696443 7.996466 7.719412 8.770542 8.652599 8.404749 8.911979
AFFX-BioB-M_at 8.813823 7.890245 8.127718 8.306655 9.011187 8.91993 8.566244 9.06862
AFFX-BioC-3_at 9.633732 9.024885 9.136383 9.120244 10.2995 10.15661 10.00954 10.25113
AFFX-BioC-5_at 9.756588 9.118516 9.137075 9.544678 9.945514 9.793713 9.544567 9.861975
AFFX-BioDn-3_at 12.0726 11.67344 11.62215 11.9874 12.16764 11.97144 11.81811 12.0963
F. divid資料庫如何上傳30個相似基因
如果要上傳30個相似基因組,可以使用DIVID來實現。DIVID是一個在線的基因組資料庫,可以用來上傳和共享基因組數據。步驟如下:
1. 首先,注冊一個DIVID帳號,登錄並進入管理頁面。
2. 點擊「上傳文件」,選擇30個相似的基因組文件,點擊「開始上傳」完成上傳。
3. 將上傳的基因組文件分類。可以在「文件管理」頁面中查看上傳的基因組文件,並將其歸類到不同的文件夾中。
4. 設置基因組文件的共享許可權。在「文件管理」頁面中可以為每個文件設置許可權,例如可以設置文件只允許私有訪問或公開訪問。
5. 將基因絕襲手組文件發布到外部網站。可以利用DIVID的內置分享功能將上傳的基因組文件發布到並嫌外部網站,例如Facebook、Twitter、Instagram等。
以上就是使用DIVID上傳30個相似基因組的步驟。DIVID不僅可以上傳和共享基因組數據禪沖,還可以實現復雜的基因組分析功能,幫助研究人員深入研究基因組數據。
G. 怎樣用david資料庫進行基因功能分析
Pathway功能分析及顯著性判斷
對差異表達基因進行Pathway功能分析,並計算Pvalue進行顯著性判斷,Pvalue越小,表明該pathway變化越顯著,並可對每條Pathway通路圖進行展示,同時在相應的位置標注差異表達基因。
2. Pathway中基因相關性分析
根據每兩個基因共出現在同一pathway中的次數統計,繪制基因共相關點線圖,進而得到不同pathway上基因的關聯情況。在分析工具上點擊「cell differentiation」,在「Term Information」中描述了細胞分化術語的基本信息,包括樹形及與父結點、子節點關系。
對於未知基因名的序列,可以用序列直接檢索GO資料庫。點擊AmiGO首頁上方的「BLAST」,進入檢索界面。在檢索框輸入氨基酸或核酸序列或上傳序列文件,檢索工具能自動識別並相應地選擇BLASTP或BLASTX來與資料庫中的序列進行比對。以大腸桿菌DNA聚合酶Ⅱ基因polB為例,「High Scoring Gene Procts」欄內顯示基因產物的名稱、物種信息、p值。
H. 基因資料庫 一般使用什麼資料庫
集合所有已知核酸的核苷酸序列,單核苷酸多態性、結構、性質以及相關描述,包括它們的科學命名、來源物種分類名稱、參考文獻等信息的資料庫。基因和基因組的資料也包含在DNA資料庫中。目前國際上比較重要的核酸(含蛋白質)一級資料庫有美國的GenBank、歐洲的EMBL和日本的DDBJ。三個資料庫信息共享,每日交換,故資料是一樣的,唯格式有所不同。
I. 高通量測序數據公共資料庫有哪些(高通量測序常規)
GenBank資料庫結構
完整的GenBank資料庫包括序列文件,索引文件以及其它有關文件。索引文件是根據資料庫中作者、參考文枝蘆亂獻等建立的,用於資料庫查詢。GenPept是由GenBank中的核酸序列翻譯而得到的蛋白質序列資料庫,其數據格式為FastA。
GenBank中最常用的是序列文件。序列文件的基本單位是序列條目,包括核苷酸鹼基排列順序和注釋兩部分。目前,許多生物信息資源中心通過計算機網路提供該資料庫文件。下面,我們介紹序列文件的結構。
GenBank序列文件由單個的序列條目組成。序列條目由欄位組成,每個欄位由關鍵字起始,後面為該欄位的具體說明。有些欄位又分若干次子欄位,以次關鍵字或特性表說明符開始。每個序列條目以雙斜杠「//」作結束標記。序列條目的格式非常重要,關鍵字從第一列開始,次關鍵字從第三列開始,特性表說明符從第五列開始。每個欄位可以佔一行,也可以占若干行。若一行中寫不下時,繼續行以空格開始。
序列條目的關鍵字包括LOCUS(代碼),DEFINITION(說明),ACCESSION(編號),NID符(核酸標識),KEYWORDS(關鍵詞),SOURCE(數據來源),REFERENCE(文獻),FEATURES(特性表),BASECOUNT(鹼基組成)及ORIGIN(鹼基排列順序)。先版的核酸序列資料庫將引入新的關鍵詞SV(序列版本號),用「編號.版本號」表示,並取代關鍵詞NID。
LOCUS(代碼):是該序列條目的標記,或者說標識符,蘊涵這個序列的功能。例如,圖4.1中所示的HUMCYCLOX表示人的環氧化酶。該欄位還包括其它相關內容,如序列長度、類型、種屬來源以及錄入日期等。說明欄位是有關這一序列的簡單描述,如本例為人環氧化酶-2的mRNA全序列。
ACCESSION(編號):具有唯一性和永久性,如本例中代碼M90100用來表示上述人環氧化酶-2的mRNA序列,在文獻中引用這個序列時嘩茄,應該以此編號為准。
KEYWORDS(關鍵詞)欄位:由該序列的提交者提供,包括該序列的基因產物以及其它相關信息,如本例中環氧化酶-2(-2),前列腺素合成酶(synthase)。
SOURCE(數據來源)欄位:說明該序列是從什麼生物體、什麼組織得到的,如本例中人臍帶血(umbilicalvein)。次關鍵字ORGANISM(種屬)指出該生物體的分類學地位,如本例人、真核生物等等(詳見圖4.1)。
REFERENCE(文獻)欄位:說明該序列中的相關文獻,包括AUTHORS(作者),TITLE(題目)及JOURNAL(雜志名)等,以次關鍵詞列出。該欄位中還列出醫學文獻摘要資料庫MEDLINE的代碼。該代碼實際上是個超文本鏈接,點擊它可以直接調用上述文獻摘要。一個序列可以有多篇文獻,以不同序號表示,並給出該序列中的哪一部分與文獻有關。
FEATURES(特性表):具有特定的格式,用來詳細描述序列特性。特性表中帶有『/db-xref/』標志的字元可以連接到其它資料庫,如本例中的分類資料庫(taxon9606),以及蛋白質序列資料庫(PID:g181254)。序列中各部分的位置都在表中標明,5』非編碼區(1-97),編碼區(98-1912),3』非編碼區(1913-3387),多聚腺苷酸重復區域(3367-3374),等等。翻譯所得信號肽以及最終蛋白質產物也都有所說明。當然,這個例子只是特性表的部分注釋信息,但已經足以說明其詳細程度。
接下來是鹼基含量欄位,給出序列中的鹼組成,如本例中1010個A,712個C,633個G,1032個T。ORIGIN行是序列的引導行,接下來便是鹼基序列,以雙斜杠行「//」結束。
·EMBL資料庫結構
EMBL資料庫的基本單位也是序列條目,包括核甘酸鹼基排列順序和注釋兩部分。序列條目由欄位組成,每個欄位由標識字起始,後面為該欄位的具體說明。有些欄位又分若干次子欄位,以次標識字或特性表說明符開始,最後以雙斜杠「//」作本序列條目結束標記。
條目的關鍵字包括ID(序列名稱),DE(序列簡單說明),AC(序列編號),SV(序列版本號),KW(與序列相關的關鍵詞),OS(序列來源的物種名),OC(序列來源的物種學名和分類學位置),RN(相關文獻編號或遞交序列的注冊信息),RA(相關文獻作者或遞交序列的作者),RT(相關文獻題目),RL(相關猛檔文獻雜志名或遞交序列的作者單位),RX(相關文獻Mediline引文代碼),RC(相關文獻注釋),RP(相關文獻其他注釋),CC(關於序列的注釋信息),DR(相關資料庫交叉引用號),FH(序列特徵表起始),FT(序列特徵表子項),SQ(鹼基種類統計數)。
其它常用核酸序列資料庫
·dbEST
dbEST資料庫專門收集EST數據,該資料庫有自己的格式,包括識別符、代碼、序列數據以及dbEST的注釋摘要,也按DNA的種類分成了若乾子資料庫。1998年5月8日版的dbEST共包括1.6_106條EST。其中有1百萬條人的EST,30萬條小鼠和大鼠的EST。
·GSDB
GSDB是基因組序列資料庫(GenomeSequenceDataBase),由美國新墨西哥州SantaFe的國家基因組資源中心創建。GSDB收集、管理並且發布完整的DNA序列及其相關信息,以滿足基因組測序中心需要。該資料庫採用伺服器-客戶機關系資料庫模式,大規模測序機構可以通過計算機網路向伺服器提交數據,並在發送之前對數據進行檢查,以確保數據的質量。
GSDB資料庫中條目的格式與GenBank中的基本一致,主要區別是GSDB資料庫中增加了GSDBID識別符。
GSDB資料庫可以通過萬維網查詢,也可以使用伺服器-客戶機關系資料庫方式查詢。無論用哪種方法,熟悉資料庫結構化查詢語言SQL,對更好地使用GSDB資料庫會有所幫助。
·UniGene
人類基因組計劃的首要任務是對人類基因組進行全序列測定,整個基因組估計有30億個鹼基對,其中大約3%可以編碼蛋白質,其餘部分的生物學功能還不清楚。轉錄圖譜可以把基因組中能夠編碼蛋白質的部分集中起來,因此是一種重要的數據資源。
UniGene試圖通過計算機程序對GeneBank中的序列數據進行適當處理,剔除冗餘部分,將同一基因的序列,包括EST序列片段搜集到一起,以便研究基因的轉錄圖譜。UniGene除了包括人的基因外,也包括小鼠、大鼠等其它模式生物的基因,而下一章將要介紹的HGI資料庫只包括人的基因。該資料庫的標題行(TITLE)給出基因的名稱和簡單說明,表達部位行(EXPRESS)指出該基因在什麼組織中表達以及在基因圖譜中的位置等。此外,列出該基因在核酸序列資料庫GenBank或EMBL和蛋白質序列資料庫SWISS-PROT中的編號的超文本鏈接。
UniGene中部分條目包括已知基因序列,而有些條目則僅有新測得的EST序列片段。這就意味著,這些EST序列所對應的基因尚未搞清,可以用來發現新基因。在描繪基因圖譜及大規模基因表達分析等研究中,UniGene也可以幫助實驗設計者選擇試劑。
UniGene可以通過NCBI或SRS系統訪問