㈠ RNA-seq名詞解釋(1)
RNA-seq即 轉錄組測序 技術,就是用 高通量測序 技術進行測序分析,反映出mRNA,smallRNA,noncodingRNA等或者其中一些的表達水平。RNA測序最經常用於分析差異表達基因(DEG)。
轉錄組 是某個物種或者特定細胞類型產生的所有轉錄本的集合。轉錄組研究能夠從整體水平研究基因功能以及 基因結構 ,揭示特定生物學過程以及疾病發生過程中的分子機理,已廣泛應用於基礎研究、臨床診斷和葯物研發等領域。
gene :具有編碼蛋白質或決定某一性狀作用的一段核酸序列。
Q20,Q30 :Phred 數值大於 20、30 的鹼基占總體鹼基的百分比,其中
Phred=-10log10(e).
intron :內含子,是真核生物細胞 DNA 中的間插序列。這些序列被
轉錄在前體 RNA 中,經過剪接被去除,最終不存在於成熟 RNA 分
子中。術語內含子也指編碼相應 RNA 內含子的 DNA 中的區域。
exon :外顯子,是真核生物基因的一部分,它在剪接(Splicing)後仍會被保存下來,並可在蛋白質生物合成過程中被表達為蛋白質。外顯子是最後出現在成熟 RNA 中的基因序列,又稱表達序列。既存在於最初的轉錄產物中,也存在於成熟的 RNA 分子中的核苷酸序列。術語外顯子也指編碼相應 RNA 外顯子的 DNA 中的區域。
intergenic :基因間區,指基因與基因之間的間隔序列,不屬於基因結構,不直接決定氨基酸,可能通過轉錄後調控影響性狀的區域。
UTR :Untranslated Regions, 非翻譯區域。是信使 RNA(mRNA)分子兩端的非編碼片段。5'-UTR 從 mRNA 起點的甲基化鳥嘌呤核苷酸帽延伸至 AUG 起始密碼子,3'-UTR 從編碼區末端的終止密碼子延伸至多聚 A 尾巴(Poly-A)的前端。
transcript :轉錄本,是由一條基因通過轉錄形成的一種或多種可供編碼蛋白質的成熟的 mRNA。一條基因通過內含子的不同剪接可構成不同的轉錄本。
isoform :同一個基因經可變剪切或內含子選擇機制產生不同的轉錄本,這些不同轉錄本即稱 isoform。 reconstruction:重組,由於不同 DNA 鏈的斷裂和連接而產生 DNA片段的交換和重新組合,從而形成新 DNA 分子。plus strand/minus strand:正鏈/負鏈。對於一個基因來說,DNA 的兩條鏈中有一條鏈作為 RNA 合成時的模板,這條鏈叫負鏈,另一條叫正鏈。
antisense strand/sense strand :無義鏈/有義鏈。模板鏈在雙鏈 DNA中,用來轉錄 mRNA 的 DNA 鏈稱為模板鏈(template strand),不用於轉錄的鏈則稱為非模板鏈(nontemplate strand)。根據鹼基互補配對原則,轉錄出的 mRNA 鏈的鹼基序列與非模板鏈的鹼基序列一致,惟一不同的是,非模板鏈中的 T 在 mRNA 鏈中全部置換成了 U。正是由於非模板鏈的鹼基序列實際上代表了 mRNA 的鹼基序列(只不過在 mRNA 中 T 換成了 U),因此非模板鏈又被稱為編碼鏈(coding strand),有義鏈(sense strand)和克里克鏈(crick strand),而用來轉錄mRNA 的 DNA 鏈被稱為非編碼鏈(anticoding strand)或無義(antisense strand)或沃森鏈(watson strand)。
gene family :基因家族。真核細胞中,許多相關的基因常按功能成套組合,被稱為基因家族。它們來源於同一祖先,由一個基因通過基因重復產生兩個或更多的拷貝而構成的一組基因,它們在結構和功能上具有明顯的相似性,編碼相似的蛋白質產物。
gtf/gff :基因結構注釋文件。gtf(gene transfer format)指包含基因特
征的注釋文件,而 gff(general feature format)是指包含基因組特徵
的注釋文件。
ORF :open reading frame,開放閱讀框或開放讀碼框。是結構基因的正常核苷酸序列,從起始密碼子到終止密碼子的閱讀框可編碼完整的
多肽鏈,其間不存在使翻譯中斷的終止密碼子。
reference genome/ reference :參考基因組。RNA-seq 有參分析的基礎。
small RNA :是長度大約在 18-30bp 的非編碼 RNA 分子,包括 micro RNAs、siRNAs 和 pi RNAs,是生命活動重要的調控因子,在基因表達調控、生物個體發育、代謝及疾病的發生等生理過程中起著重要作
用。
ncRNA :non-coding RNA,非編碼 RNA。指不編碼蛋白質的 RNA。其中包括 rRNA,tRNA,snRNA,snoRNA 和 microRNA 等多種已知功能的 RNA,及未知功能的 RNA。其共同特點是都能從基因組上轉錄而來,不需要翻譯成蛋白即可在 RNA 水平上行使各自的生物學功能。
lncRNA :long noncoding RNA,長鏈非編碼 RNA。長度在 200-100000nt之間,不具有編碼蛋白功能的轉錄本。根據與編碼基因的位置關系可分為:Antisense lncRNA (反義長非編碼 RNA)、Intronic lncRNA (內含子長非編碼 RNA)、Long intergenic noncoding RNA (基因間區長非編碼 RNA)、Sense lncRNA(正義長非編碼 RNA)、Bidirectional lncRNA(雙向長非編碼 RNA)。
參考鏈接:
RNA-seq_網路 (.com)