『壹』 circrna和ncrna之間的區別
1、starBase 一個高通量實驗數據CLIP-Seq(或稱為HITS-CLIP,PAR-CLIP,iCLIP)和mRNA降解組測序數據支持的microRNA靶標資料庫,包含了miRNA-mRNA,miRNA-lncRNA,miRNA-circRNA,miRNA-ceRNA 和RNA-protein等的調控關系。
整合和構建多個流行的靶標。
『貳』 怎樣檢查基因組注釋結果的可靠性
基因組注釋主要包括四個研究方向:重復序列的識別;非編碼RNA的預測;基因結構預測和基因功能注釋。我們將分別對這四個領域進行闡述。
1:重復序列的識別。
重復序列的研究背景和意義:重復序列可分為串聯重復序列(Tendam repeat)和散在重復序列(Interpersed repeat)兩大類。其中串聯重復序列包括有微衛星序列,小衛星序列等等;散在重復序列又稱轉座子元件,包括以DNA-DNA方式轉座的DNA轉座子和反轉錄轉座子(retrotransposon)。常見的反轉錄轉座子類別有LTR,LINE和SINE等。
重復序列識別的發展現狀:目前,識別重復序列和轉座子的方法為序列比對和從頭預測兩類。序列比對方法一般採用Repeatmasker軟體,識別與已知重復序列相似的序列,並對其進行分類。常用Repbase重復序列資料庫。從頭預測方法則是利用重復序列或轉座子自身的序列或結構特徵構建從頭預測演算法或軟體對序列進行識別。從頭預測方法的優點在於能夠根據轉座子元件自身的結構特徵進行預測,不依賴於已有的轉座子資料庫,能夠發現未知的轉座子元件。常見的從頭預測方法有Recon,Piler,Repeatscout,LTR-finder,ReAS等等。
重復序列識別的研究內容:獲得組裝好的基因組序列後,我們首先預測基因組中的重復序列和轉座子元件。一方面,我們採用RepeatScout、LTR-finder、Tendem Repeat Finder、Repeatmoderler、Piler等從頭預測軟體預測重復序列。為了獲得從頭預測方法得到的重復序列的類別信息,我們把這些序列與Repbase資料庫比對,將能夠歸類的重復序列進行分類。另一方面,我們利用Repeatmasker識別與已知重復序列相似的重復序列或蛋白質序列。通過構建Repbase資料庫在DNA水平和蛋白質水平的重復序列,Repeatmasker能夠分別識別在DNA水平和蛋白質水平重復的序列,提高了識別率。
重復序列識別的關鍵技術難點:
1):第二代測序技術測基因組,有成本低、速度快等優點。但是由於目前產生的讀長(reads)較短。由於基因組序列採用kmer演算法進行組裝,高度相似的重復序列可能會被壓縮到一起,影響對後續的重復序列識別。
2):某些高度重復的序列用現有的組裝方法難以組裝出來,成為未組裝reads(unassembled reads)。有必要同時分析未組裝reads以得到更為完整的重復序列分布圖。之前,華大已開發了ReAS軟體,專門用於識別未組裝reads中的重復序列。但該軟體目前只能處理傳統測序技術(如sanger測序)生成的較長片段的reads,需要進一步改進方可用於分析第二代測序技術得到的reads。同時,未組裝的短片段reads重復度更高,識別其重復區域具有較大難度。
重復序列識別的研究方向:
1):整合現有的重復序列預測方法,對組裝好的基因組序列進行分析。
2):綜合考慮並結合短序列組裝策略,校正重復序列識別的結果。
3):開發識別未組裝reads重復序列的演算法和流程並構建一致性序列。
2:非編碼RNA序列的預測。
非編碼RNA預測的研究背景和意義:非編碼RNA,指的是不被翻譯成蛋白質的RNA,如tRNA, rRNA等,這些RNA不被翻譯成蛋白質,但是具有重要的生物學功能。miRNA結合其靶向基因的mRNA序列結合,將mRNA降解或抑制其翻譯成蛋白質,具有沉默基因的功能。tRNA (轉運RNA)攜帶氨基酸進入核糖體,使之在mRNA指導下合成蛋白質。rRNA(核糖體RNA)與蛋白質結合形成核糖體,其功能是作為mRNA的支架,提供mRNA翻譯成蛋白質的場所。snRNA(小核RNA)主要參與RNA前體的加工過程,是RNA剪切體的主要成分。
非編碼RNA預測的發展現狀:由於ncRNA種類繁多,特徵各異,缺少編碼蛋白質的基因所具有的典型特徵,現有的ncRNA預測軟體一般專注於搜索單一種類的ncRNA,如tRNAScan-SE 搜索tRNA、snoScan 搜索帶C/D盒的snoRNAs、SnoGps 搜索帶H/ACA 盒的snoRNAs、mirScan 搜索microRNA等等。Sanger實驗室開發了Infernal軟體,建立了1600多個RNA家族,並對每個家族建立了一致性二級結構和協方差模型,形成了Rfam資料庫。採用Rfam資料庫中的每個RNA的協方差模型,結合Infernal軟體可以預測出已有RNA家族的新成員。Rfam/Infernal方法應用廣泛,可以預測各種RNA家族成員,但是特異性較差。我們建議:如果有更好的專門預測某一類非編碼RNA的軟體,那麼採用該軟體進行預測;否則,使用Rfam/Infernal流程。
非編碼RNA預測的研究內容:利用Rfam家族的協方差模型,我們採用Rfam自帶的Infernal軟體預測miRNA和snRNA序列。由於rRNA的保守性很強,為此我們用序列比對已知的rRNA序列,識別基因組中的rRNA序列。tRNAscan-SE工具中綜合了多個識別和分析程序,通過分析啟動子元件的保守序列模式、tRNA二級結構的分析、轉錄控制元件分析和除去絕大多數假陽性的篩選過程,據稱能識別99%的真tRNA基因。
非編碼RNA預測中擬解決的關鍵技術難點:
識別非編碼RNA的假基因:基因組中很多序列由非編碼RNA基因復制而來,與非編碼RNA基因序列相似,但不具有非編碼RNA的功能。目前我們採用的非編碼RNA序列的預測方法都是基於序列比對和結構預測,不能夠很好的去除這類非編碼RNA的假基因。針對這個問題,我們考慮結合RNA表達信息如RNA-seq數據進行篩選。
非編碼RNA預測的研究方向:
1):專門檢測小片段RNA序列的方法現在已經得到廣泛應用,利用小片段RNA序列數據進行非編碼RNA的預測是我們的重要研究方向。
2):開發miRNA靶向基因預測流程:miRNA通過調控其靶向基因的mRNA穩定性或翻譯來控制生命活動的進程。預測miRNA靶向基因能夠給我們研究miRNA功能帶來提示。由於miRNA在動物和植物中對靶向基因的調控機制差別較大,我們建議對動物和植物分別建立靶向基因預測流程,提高預測准確度。
3:基因結構預測。
基因結構預測的研究背景和意義:通過基因結構預測,我們能夠獲得基因組詳細的基因分布和結構信息,也將為功能注釋和進化分析工作提供重要的原料。基因結構預測包括預測基因組中的基因位點、開放性閱讀框架(ORF)、翻譯起始位點和終止位點、內含子和外顯子區域、啟動子、可變剪切位點以及蛋白質編碼序列等等。
基因結構預測的發展現狀: 原核生物基因的各種信號位點(如啟動子和終止子信號位點)特異性較強且容易識別,因此相應的基因預測方法已經基本成熟。Glimmer是應用最為廣泛的原核生物基因結構預測軟體,准確度高。而真核生物的基因預測工作的難度則大為增加。首先,真核生物中的啟動子和終止子等信號位點更為復雜,難以識別。其次,真核生物中廣泛存在可變剪切現象,使外顯子和內含子的定位更為困難。因此,預測真核生物的基因結構需要運用更為復雜的演算法,常用的有隱馬爾科夫模型等。常用的軟體有Genscan、SNAP、GeneMark、Twinscan等。
基因結構預測的研究內容:基因結構預測主要通過序列比對結合從頭預測方法進行。序列比對方法採用blat和pasa等比對方法,將基因組序列與外部數據進行比對,以找到可能的基因位置信息。常用的數據包括物種自身或其近緣物種的蛋白質序列、EST序列、全長cDNA序列、unigene序列等等。這種方法對數據的依賴性很高,並且在選擇數據的同時要充分考慮到物種之間的親緣關系和進化距離。基因從頭預測方法則是通過搜索基因組中的重要信號位點進行的。常用的軟體有Genscan、SNAP、Augustus、Glimmer、GlimmerHMM等等。同時採用多種方法進行基因預測將產生眾多結果,因此最後需要對結果進行整合以得到基因的一致性序列。常用軟體有Glean,EVM等。
基因結構預測中擬解決的關鍵技術難點:
目前,真核生物的基因結構預測方法仍有較大改進空間,主要面臨以下的技術難點。
1):如何利用現有的數據和演算法,更好地識別基因的可變性剪切位點。
2):隨著測序工作的進展,許多目前研究較少的物種也將提上測序日程。大多基因結構的從頭預測演算法需要預先訓練預測參數。現有資源和數據稀缺的物種將很難獲得預測參數。
3):克服組裝錯誤對基因結果預測的影響
4):建立基因結構預測的評價系統。
可變性剪切位點的預測較為困難。如何結合RNA-seq數據進行可變剪切預測將是重要的工作方向和難點。
基因結構預測的研究方向:
1):利用RNA-seq、EST等數據校正基因結構預測結果,識別可變剪切位點。
2):對於研究較少的物種,建議利用近緣物種的同源基因數據以訓練基因結構預測軟體。
3):利用同源基因組之間的共線性信息,輔助基因結構預測。
4:基因功能注釋。
基因功能注釋的研究背景和意義:獲得基因結構信息後,我們希望能夠進一步獲得基因的功能信息。基因功能注釋方向包括預測基因中的模序和結構域、蛋白質的功能和所在的生物學通路等。
基因功能注釋的發展現狀:全基因組測序將產生大量數據,而實驗方法由於成本較高,不適用於全基因組測序的後續功能分析。為此,目前普遍採用比對方法對全基因組測序的基因功能進行注釋。KEGG和Gene Ontology是目前使用最為廣泛的蛋白質功能資料庫,分別對蛋白質的生物學通路和功能進行注釋。Interpro通過整合多個記錄蛋白質特徵的資料庫,根據蛋白質序列或結構中的特徵對蛋白質進行分類。
基因功能注釋的研究內容:目前,我們利用四個常用的資料庫進行基因功能注釋。使用的資料庫有Uniprot蛋白質序列資料庫、KEGG生物學通路資料庫、Interpro蛋白質家族資料庫和Gene Ontology基因功能注釋資料庫。
1):與Uniprot蛋白質序列資料庫比對,獲得序列的初步信息。
2):與KEGG資料庫比對,預測蛋白質可能具有的生物學通路信息。
3):與Interpro資料庫比對將獲得蛋白質的保守性序列,模序和結構域等。
4):預測蛋白質的功能。Interpro進一步建立了與Gene Ontology的交互系統:Interpro2GO。該系統記錄了每個蛋白質家族與Gene Ontology中的功能節點的對應關系,我們通過此系統便能預測蛋白質執行的生物學功能。
基因功能注釋中擬解決的關鍵技術難點:
目前我們的功能注釋工作是建立在比對的基礎上,這將會帶來兩個比較大的問題。首先,此方法嚴重依賴於外部數據,對某些研究較少的物種限制很大。其次,序列相似並不表示實際生物學功能相似,考慮引入序列比對之外的方法,進一步完善基因功能注釋工作。
基因功能注釋的研究方向:考慮引入序列比對之外的數據(如蛋白質互作網路、基因表達譜等),利用概率模型演算法進行整合,完善基因功能注釋工作。
『叄』 tRNAdb 是什麼生物信息資料庫
ncRNA(non-coding RNA) 就是非編碼RNA ,如小分子核仁RNA(sonRNA)、小RNA(miRNA)、小干擾RNA(siRNA)。NcRNA應該是遺傳信息的攜帶者,RNA的一種,目前主要有三大種tRNA|轉運RNA,翻譯|mRNA信使RNA,轉錄||rRNA核糖體RNA構成核糖體