⑴ 怎樣批量計算基因編碼區長度
有些時候我們需要知道轉錄本長度,比如在使用RNA-seq計算FPKM的時候,為了准確地評估不同基因的表達量,一般是用覆蓋該基因/轉錄本的總reads數除以基因/轉錄本的長度,有些時候我們需要知道基因編碼區的長度,比如在使用VAAST評估致病候選基因的時候,有些基因因為編碼區特別長(如TTN)總是排名靠前,如果考慮到它的編碼區長度後,排序將會更加科學。 那麼怎樣獲得基因編碼區長度呢?這個問題看起來比較簡單,只要將每個外顯子的長度加起來就可以了,對於單個轉錄本可以通過NCBI的CCDS資料庫查詢,但是基因有多個轉錄本,每個轉錄本的編碼區有重合,所以基因編碼區不是每個轉錄本編碼區的簡單相加,所以要想准確地獲得每個基因的編碼區長度並不容易,而且目前並沒有現成的資料庫,經過游俠在網上摸索後將相關方法整理如下,供大家參考。首先從sanger網站下載基因注釋文件GTF,ftp://ftp.sanger.ac.uk/pub/gencode/Gencode_human/release_19/gencode.v19.annotation.gtf.gz。然後在R中使用GenomicFeatures工具包。library(GenomicFeatures)txdb <- makeTranscriptDbFromGFF("yourFile.gtf",format="gtf")收集每個基因的編碼區編號exons.list.per.gene <-cdsBy(txdb,by="gene")通過rece函數避免重復計算重疊區exonic.gene.sizes <- lapply(exons.list.per.gene,function(x){sum(width(rece(x)))})生成的gene ID為ensemble編號,可以通過https://biodbnet-abcc.ncifcrf.gov/db/db2dbRes.php,轉換為gene symbol。另外游俠已經處理好了人類所有基因的編碼區長度,如果有需要的話,可以在微信號留言索取。
基因檢測與解讀(gh_561c4ccc5356)
查看原文 分享到微信 文章為作者獨立觀點,不代表微頭條立場
基因檢測與解讀的最新文章
匪夷所思的遺傳方式
我們知道常染色體隱性遺傳一般是有缺陷的染色體分別來自父母兩方,根據突變位點的位置是否相同分為純合突變與復合雜合突變,但是你聽說過兩個有缺陷的位點全部來自父母一方嗎?
基因檢測與解讀·09月19日 10:17
外顯子
重新分析之前未確診的臨床全外顯子案例可提高診斷率
本文主要介紹Genetics in Medicine(IF:7.7)雜志上的一篇論文pmid:27441994。
基因檢測與解讀·09月13日 12:14
基因檢測文章
基因檢測與解讀文章列表
關注微信號回復數字查看文章
基因檢測與解讀·09月13日 12:14
RVAS是個什麼鬼?居然將替代GWAS
在過去的8年中,GWAS(genome-wide association studies)研究被廣泛地應用於解析遺傳基因與復雜常見疾病和數量性狀。
基因檢測與解讀·09月07日 11:17
樣本
遺傳家系樣本採集有捷徑
最近游俠君應邀參加某同學國自然課題討論:一個大家系某種疾病的致病基因,當他拿出家系圖並標出哪些樣本有DNA時,游俠很吃驚,30多人的大家系居然只有5個人有DNA樣本
基因檢測與解讀·08月26日 06:09
基因檢測遺傳病如何
臨床醫生該如何選擇遺傳病基因檢測
最近本公眾號接到一位女士的後台留言,請游俠幫忙解讀基因報告,她有兩歲的女兒,血小板低,治療1年略有好轉但仍不達標,無其他臨床表現
基因檢測與解讀·08月26日 06:09
最大的項目
世界最大的先天性發育異常遺傳研究---DDD項目
作者:周在威概況 「DDD計劃」是一項創新型的罕見病課題項目,DDD是Deciphering De
基因檢測與解讀·08月13日 00:15
外顯子如何
如何分析全外顯子拷貝數變異
介紹XHMM與CODEX分析全外顯子CNV。
基因檢測與解讀·08月13日 00:15
如何
如何從散發病例中尋找新致病基因
臨床遺傳醫生在門診過程中經常遇到不能明確基因診斷的病例,目前即使是全外顯子測序也大約只有30%的遺傳病能夠找到致病基因,剩下的這些未明確基因案例積累多了對於發現新的致病基因就非常有價值
基因檢測與解讀·07月25日 10:37
動畫
什麼是DNA?3d動畫告訴你
想查看原始動畫的朋友請下載
基因檢測與解讀·07月25日 10:37
網站中心
以罕見病患者為中心的MyGene2網站
華盛頓大學的孟德爾基因組學醫學中心創建了mygene2網站,使得患者及其家屬參與臨床醫生和科學家尋找罕見疾病相關基因成為可能
基因檢測與解讀·07月25日 10:37
染色體基因組
尋找染色體斷裂點-捕獲測序or全基因組測序?
今天微信上有朋友詢問染色體內倒位,通過捕獲測序可以檢測具體的斷裂點嗎?首先從理論上來說肯定是可以的,但是從性價比上來說肯定不如直接從全基因組測序。
基因檢測與解讀·07月25日 10:37
外顯子
淺談臨床全外顯子基因數據分析
臨床全外顯子測序方法與平台與科研外顯子沒有區別,都是利用序列捕獲技術將全基因組外顯子區域DNA捕捉並富集後進行高通量測序
基因檢測與解讀·07月25日 10:37
基因檢測文章
基因檢測與解讀文章列表
關注微信號回復數字查看文章
基因檢測與解讀·07月25日 10:37
怎樣批量計算基因編碼區長度?
有些時候我們需要知道轉錄本長度,比如在使用RNA-seq計算FPKM的時候,為了准確地評估不同基因的表達量,一般是用覆蓋該基因/轉錄本的總reads數除以基因/轉錄本的長度
基因檢測與解讀·07月25日 10:37
腹痛加反復低熱也許是基因惹的禍
最近佛蒙特大學的Leonard教授建立了一個「了解你的基因組(Understand Your Genome)」工作組,其中73名佛蒙特大學教職工自願測序他們的全基因組
基因檢測與解讀·07月17日 21:23
你知道基因有多長嗎?
很多不懂生物的朋友會問我,基因有多長啊?這是個難以給出確定答案的問題,基因是一段有功能的DNA片段,由ATGC四種鹼基組成,每個鹼基成為1個bp,有的基因很長,目前最長的基因是DMD基因,全長2,220,291bp(來自NCBI)
基因檢測與解讀·07月16日 21:24
基因檢測
基因檢測報告解讀不可缺
最近公眾號收到一位讀者的求助,希望游俠幫忙解讀一下基因檢測報告,她本人非常擔心自己的健康狀況,認為自己經過基因檢測已經確診為一種遺傳病,不敢塗口紅,不敢吃雞肉,連家裡的裝修都停了
基因檢測與解讀·06月09日 10:21
科學家發現冠心病
科學家發現罕見基因位點可顯著降低冠心病發病風險
隨著人類的不斷繁衍,基因也在不斷的突變進化,大多數時候這些突變有可能會破壞人體的健康,比如單基因遺傳病,但有些基因突變也許能夠保護我們的健康,只是由於科學研究手段的缺乏,導致很難發現這樣的有益突變
基因檢測與解讀·05月30日 01:29
基因檢測歡樂頌做什麼
《歡樂頌》中的安迪該做什麼基因檢測
最近電視劇《歡樂頌》非常火,劇中安迪的媽媽及外婆都患有嚴重的精神疾病,而弟弟小明有嚴重的智力低下
基因檢測與解讀·05月21日 11:48
地中海遺傳病
一例疑似家族性地中海熱遺傳病的遺傳分析
近日基因檢測與解讀微信公眾號收到一位讀者的求助,希望游俠能夠幫忙解讀基因檢測報告
基因檢測與解讀·05月20日 00:30
基因組
CNV專題二:CREST分析全基因組拷貝數變異
這一期主要介紹利用CREST (Clipping REveals STructure)軟體分析人全基因組測序拷貝數變異,上一期游俠提到目前的軟體主要利用三種feature來計算CNV,而CREST主要利用其中的一種來計算
基因檢測與解讀·05月02日 15:09
基因組
CNV專題一:genomestrip2分析全基因組拷貝數變異
CNV又稱拷貝數變異,包括缺失與重復,屬於非平衡易位的一種,據文獻估計每個人都有幾千個CNV,這些CNV有大有小,很多都位於基因間或基因的內含子中
基因檢測與解讀·04月18日 00:31
一起學
一起學NGS數據分析之位點篩選二
在前面游俠介紹了利用Annovar注釋之後的信息進行篩選位點,今天介紹VAAST軟體如何進行候選致病位點的篩選
基因檢測與解讀·03月20日 22:21
資源
遺傳家系資源交流平台
最近游俠接到一位讀者的電話,他有一個3代2人患病的小家系,做了3例全外顯子捕獲測序篩選下來得到幾十個候選基因位點,他想詢問下一步該如何繼續研究?
基因檢測與解讀·03月01日 12:23
一起學操作系統
一起學NGS數據分析之操作系統
由於很多免費及開源的軟體都是在linux系統下運行,所以如果你要想學習生物信息分析,安裝linux系統是逃不掉的,不過不要太擔心,現在的linux系統早已不是當初的DOS命令行了
基因檢測與解讀·01月29日 00:08
基因組
人全基因組測序究竟強在哪裡?
作為國內為數不多接觸並分析過人全基因組測序(WGS)分析的人員之一,看到很多從業人員甚至專業的生物信息人員都對WGS不了解,游俠覺得有必要向大家普及一下全基因組測序究竟強在哪裡!
基因檢測與解讀·01月19日 17:20
一起學檢測
一起學NGS數據分析之腫瘤突變檢測
上一節我們講述了germline variation如何檢測,這一期聊聊腫瘤體細胞之突變檢測
基因檢測與解讀·01月15日 23:50
一起學檢測
一起學NGS數據分析之檢測突變
很久沒有更新了,有讀者留言期待後面的文章,所以我又開始寫了,下次大家看到我沒有更新,及時留言提醒我啊,不然我又偷懶了!
基因檢測與解讀·01月15日 03:50
如何
如何根據表達譜晶元數據巧妙設計定量PCR引物的位置
有朋友做完表達譜晶元尋找到有差異表達的基因後,設計引物定量PCR驗證會發現對照樣本與處理樣本無顯著性差異?這究竟是怎麼回事呢?
基因檢測與解讀·01月06日 03:27
一起學
一起學NGS數據分析之數據質控
拿到基因測序公司的原始數據後,一般是clean data又稱PF data,首先要做的就是查看數據量夠不夠以及測序的質量怎麼樣,目前最為流行的數據質量查看軟體就是FastQC
基因檢測與解讀·01月03日 19:57
基因檢測與解讀
gh_561c4ccc5356
介紹基因檢測新進展,交流臨床基因測序結果,探討基因數據分析流程與方法,發表自己對於基因行業的理解與看法,提供遺傳咨詢服務!
熱門文章
1.空調室外機毀壞 物業公司有無責任
2.物業管理用房產權屬於誰?
3.㊙男人苦,所以賭,男人忙,所以常常上錯 床......(太精闢了)
4.▶小視頻(很短,連看了7遍)
5.愛牙日|為寶寶的牙齒做點什麼
6.【物管案例】業主起訴鄰居私搭亂建,法院判限期拆除
7.忻州【小咖秀】058期:囡囡
8.㊙獻給所有老同學
9. 水中分娩,你絕沒見過......
10.《農村的玉米地里》一首歌 火了
最新文章
1.先搶先得 樂次元「爵無僅有」大禮包9月20日全面開售
2.Angelababy成茶葉商標(圖)
3.你會調整後視鏡嗎?
4.3分16秒,正好拍到這一幕
5.【仲和堂】心如玉,世無雙
6.10大堅果食用禁忌
7.人性/狗性/狼性
8.【仲和堂】中秋|天涯共此月圓時
9.汽車儀表指示燈,最全面的解釋
基因檢測與解讀
gh_561c4ccc5356
介紹基因檢測新進展,交流臨床基因測序結果,探討基因數據分析流程與方法,發表自己對於基因行業的理解與看法,提供遺傳咨詢服務!
本站文章來自網友的提交收錄,版權歸原作者所有,如需刪除或申請收錄,請聯系微信號:iyipengcheng
我要入駐 公號大全
Copyright©2015 微頭條 京ICP備14
⑵ IP是網戰的網址還是電腦唯一的地址
在url上輸入是進入不了的,除非對方提供的有http服務,想進入對方電腦可以用遠程連接,前提是對方的遠程連接打開,而且你知道對方開機的用戶名和密碼。
⑶ uniprot蛋白質序列資料庫由哪幾部分組成各有什麼特點
將PIR、SWISS-PROT和TrEMBL3個蛋白質資料庫統一-起來組建而成,包含3個部分:
(1) UniProt Knowledgebase (UniProtKB) ,這是蛋白質序列、功能、分類、交叉引用等蛋白質知識庫,記錄經過人工篩選和注釋;
■ (2) UniRef ( UniProt Non-rendant Reference )
資料庫,將密切相關的蛋白質序列組合到一條記錄中,以便提高搜索速度;目前,根據序列相似程度形成3個子庫,即UniRef100、UniRef90和UniRef50;
■ (3) UniParc (UniProt Archive),是UniProt存檔庫 ,
收錄所有蛋白質序列。用戶可以通過文本查詢資料庫,可以利用BLAST程序搜索資料庫,也可以直接通過FTP下載數據。
⑷ IP怎麼劃分區域的。。
如何劃分ip地址呢
現在的IP網路使用32位地址,以點分十進製表示,如172.16.0.0。地址格式為:IP地址=網路地址+主機地址 或 IP地址=主機地址+子網地址+主機地址子網掩碼的設定遵循一定的規則,與IP地址相同,子網掩碼的長度也是32位,左邊是網路位,用二進制數字「1」表示;右邊是主機位,用二進制數字「0」表示。
子網的劃分,實際上就是設計子網掩碼的過程。子網掩碼主要是用來區分IP地址中的網路ID和主機ID,它用來屏蔽IP地址的一部分,從IP地址中分離出網路ID和主機ID.子網掩碼是由4個十進制數組成的數值"中間用"."分隔,如255.255.255.0。若將它寫成二進制的形式為:11111111.11111111.11111111.00000000,其中為"1"的位分離出網路ID,為"0"的位分離出主機ID,也就是通過將IP地址與子網掩碼進行"與"邏輯操作,得出網路號。
子網掩碼不單獨存在,它結合IP地址一起使用。子網掩碼的個作用是將某個IP地址劃分成網路地址和主機地址兩部分。 IP地址根據網路ID的不同分為5種類型,A類地址、B類地址、C類地址、D類地址和E類地址。那麼如何劃分ip地址呢?
1、A類IP地址
一個A類IP地址由1位元組的網路地址和3位元組主機地址組成,網路地址的最高位必須是「0」, 地址范圍從1.0.0.0 到126.0.0.0。可用的A類網路有126個,每個網路能容納1億多個主機。
2、B類IP地址
一個B類IP地址由2個位元組的網路地址和2個位元組的主機地址組成,網路地址的最高位必須是「10」,地址范圍從128.0.0.0到191.255.255.255。可用的B類網路有16382個,每個網路能容納6萬多個主機 。
3、C類IP地址
一個C類IP地址由3位元組的網路地址和1位元組的主機地址組成,網路地址的最高位必須是「110」。范圍從192.0.0.0到223.255.255.255。C類網路可達209萬余個,每個網路能容納254個主機。
4、D類地址用於多點廣播(Multicast)。
D類IP地址第一個位元組以「lll0」開始,它是一個專門保留的地址。它並不指向特定的網路,目前這一類地址被用在多點廣播(Multicast)中。多點廣播地址用來一次定址一組計算機,它標識共享同一協議的一組計算機。
5、E類IP地址
以「llll0」開始,為將來使用保留。 全零(「0.0.0.0」)地址對應於當前主機。全「1」的IP地址(「255.255.255.255」)是當前子網的廣播地址。
在IP地址3種主要類型里,各保留了3個區域作為私有地址,也就是比較常用的ip地址。其地址范圍如下:
A類地址:10.0.0.0~10.255.255.255
B類地址:172.16.0.0~172.31.255.255
C類地址:192.168.0.0~192.168.255.255
(1)A類地址
A類地址的表示範圍為:0.0.0.0~126.255.255.255,默認網路掩碼為:255.0.0.0,A類網路用第一組數字表示網路本身的地址,後面三組數字作為連接於網路上的主機的地址,即高端位0,接下來7位表示網路ID,其餘24位表示宿主機ID。A類地址分配給具有大量主機(直接個人用戶)而區域網絡個數較少的型網路。例如IBM公司的網路。
A類地址適合於網路較少而節點較多的情況,網路數為128個,每一網向絡的節點數為1600個。
(2)B類地址
B類地址的表示範圍為:128.0.0.0~223.255.255.255,默認網路掩碼為:255.0.0.0。B類地址分配給一般的中型網路。B類網路用第一、二組數字表示網路的地址,後面兩組數字代表網路上的主機地址,即高端位10,接下來14位表示網路ID,其餘16位表示宿主機ID。
B類地址適合於網路數和節點數適中的情況,網路數為16000個,每一網路的節點數為64000個。
(3)C類地址
C類地址的表示範圍為:192.0.0.0.~223.255.255.255,默認網路掩碼為:255.255.255.0;C類地址分配給小型網路,如一般的區域網和校園網,它可連接的主機數量是最少的,採用所屬的用戶分為若乾的網段進行管理。C類網路用前三組數字表示網路的地址,最後一組數字作為網路上的主機地址,即高端位110,接下來的21位表示網路ID,其餘8位表示宿主機ID。
C類地址適合於網路數較多而節點較少的情況,網路數為2百萬個,每個網路的節點數為256個。
例如說「131.108.1.56子網掩碼255.255.255.0 這個IP和子網掩碼是統一的,可以說地址屬於B而掩碼屬於C嗎?」,是不合適的。子網掩碼是不屬於IP地址的分類的。
⑸ 文獻閱讀 | 相分離與VDJ重排 (2019, Nature Communication)
抗體表達基因通過V H - D H J H 重排產生多樣的抗體庫,而該過程涉及到基因組內的遠程相互作用。
本文的作者開發了一種雙熒光活細胞成像手段,可以同時跟蹤B淋巴細胞中V H 與 D H J H 片段的運動,並由此觀察到:V H 與 D H J H 片段的在細胞核內的運動受限,只能在局部發生移動。起始距離較近的V H 與 D H J H 片段在細胞核內始終靠近,而初始距離較遠的V H 與D H J H 在觀察中也一直保持較遠的距離。但同時作者也觀察到在少部分細胞中這種限制被打破,V H 與D H J H 的距離發生巨大的改變,作者認為在這些細胞中可能發生了染色質構象的改變。
通過對實驗數據進行模擬建模,作者提出:正常細胞核內的染色質處於溶膠環境中,而在Igh基因座附近染色質相互交聯,導致環境發生從溶膠向凝膠的相變,凝膠環境限制了V H 與 D H J H 片段運動。
B細胞來源於骨髓中的 共同淋巴祖細胞(common lymphoid progenitor cell, CLP ,CLP分化產生 pro-B 細胞。
在pro-B細胞中,抗體重鏈基因座(Igh)發生 V H - D H - J H 重排。這一過程中,首先發生的是 D H 與 J H 連接形成 D H J H 重組,然後 V H 片段再與 D H J H 重組。 V H - D H J H 重組後,pro-B細胞分化為pre-B細胞。在pre-B細胞中,抗體的輕鏈基因發生重組。之後,pre-B細胞分化成具有抗體表達能力的immature-B細胞,離開骨髓,遷移前往外周淋巴細胞。
在V、D、J片段側翼分布有重組信號序列,RAG1和RAG2兩種核酸內切酶可以識別並結合到該位點,引發DNA雙鏈斷裂,為基因組重排提供結構基礎。V H 區分為遠端和近端兩個簇,在基因組約佔2.7 Mb。C H 區下游有成簇的CTCF結合位點,V H 區的兩側也有CTCF結合位點,並且與C H 區下游的CTCF結合位點方向相對。結合在V H 區兩側的CTCF將V H 區與D H J H 區隔離,抑制過早發生V H 片段與D H J H 片段重排
在Igh 的基因座,V H - D H J H 區域的DNA上有大量的表觀遺傳修飾。這些修飾是發育階段特異性的,參與V H - D H J H 重排。
E2A和HEB蛋白參與此過程。具體而言,Igh基因座內有E2A結合位點,E2A結合到Igh基因座後募集乙醯轉移酶 P300,使結合位點所在區域內的染色質的組蛋白的H3 和H4尾部的賴氨酸殘基發生乙醯化修飾,並進一步招募染色質重塑因子BRD4,促進染色質內部交聯並發生相分離。在活化的成熟B細胞中,研究者和觀察到E2A蛋白聚集成液滴形狀。
之前的研究可以使用單熒游標記V H 片段或D H J H 片段,觀察它們在基因組中的運動。而本文開發了一種雙色熒游標記手段(Figure 1),可以同時對活細胞內的V H 片段和D H J H 片段的運動軌跡進行追蹤,並測量兩片段之間的距離。
通過與3D-FISH的結果進行比較,作者證明了新開發方法的有效性(Figure 2)。
根據雙熒光成像結果, 作者計算了不同細胞內的V H 片段與D H J H 片段間的距離隨時間變化的曲線 ,得到Figure 3a,圖中每條曲線代表一個細胞。
首先,由於圖中檢測到的V H 片段與D H J H 片段間的距離變異幅度較大(距離從0.2-1.2 μm不等),作者認為這表明在群體細胞中Igh基因座的染色質構型具有多樣性。並且因為二者間的距離分布呈雙峰狀,所以作者提出Igh基因座應當至少存在2種優勢染色質構型。按照每個細胞內的V H 與D H J H 片段在400s內的平均距離對曲線進行染色後可以看出,不同顏色的曲線明顯分層。即V H 與D H J H 間的距離相對恆定,僅圍繞某一平均值上下浮動。
總之,以上的結果表明, V H 與D H J H 片段的運動高度受限,可以在局部空間內移動,但是整體距離保持穩定 。
接下來,作者使用均方位移(mean-squared displacements,MSD)和速度自相關函數(velocity autocorrelation functions)兩個指標進一步說明此問題 。均方位移計算了不同位點在長度為τ移的一段時間內的位移的平方的平均值。而速度自相關函數則計算了位點對在相隔為τ的一段時間前後的速度平均值的相關程度(平均速度計算自位點在長度為δ的時間內的位移)。
Figure 3b顯示了每個細胞內 MSD隨τ的變化曲線 ,對所有細胞進行平均得到Figure 3C。根據MSD ~ τ 曲線計算出scaling exponent α (MSD與時間τ的α次方程正比),無論是D H J H -D H J H (染色體間,綠色)還是V H -D H J H (染色體內,紅色)的 α 都小於1,這表明二者的 擴散受到限制(subdiffusive) ,且V H -D H J H 受到的限制更強(α更小)。速度自相關函數隨τ的變化曲線顯示,V H 與D H J H 兩個片段間的運動呈現負相關關系(Fig 3d),作者認為這可能是因為環境對其起到了push-back作用。
盡管在大多數細胞中,V H 與D H J H 的距離相對恆定,但是作者也指出在大約10%的細胞中,V H -D H J H 距離變異較大,MSD ~ τ 曲線的α系數急劇上升,即在這些細胞中,V H 與D H J H 片段運動受到的環境約束較小。作者認為在這些細胞中可能發生了染色質構象變化。
為了探究環境限制V H -D H J H 運動的機制,使用分子動力學模擬手段對染色質構象進行建模 ,來模擬使用3D-FISH實驗手段繪製得到的V H -D H J H 的空間距離隨二者在基因組上的線性距離變化的函數曲線。
首先,作者指出3D-FISH距離曲線中一個重要特點是有一個平台期。作者作者將染色質視為彈簧串珠結構,構建了4種不同的模型:
(1)無結構限制模型
(2)單環構象
(3)雙環構象
(4)多環或環境限制構象
模擬結果顯示,只有多環構象可以再現出平台期這一特點(Figure 4a)。因此,作者提出, 染色質環可能是V H -D H J H 運動的主要限制來源 。
然而,盡管多環染色質構象可以模擬出3D-FISH距離曲線中的平台期,但是基於該模型模擬產生的V H -D H J H 距離隨時間變化曲線的變異幅度過大,導致不同細胞的距離-時間曲線交織在一起(Figure 4c),與Figure 3a中觀察到的曲線分層特徵明顯不符。因此,作者認為 除染色質環以外應當還存在另外一種限制,對V H 和D H J H 片段的局部運動進行約束 。
作者假設第二層約束來源於染色質交聯作用 。
之前有研究提出了超級增強子介導染色質交聯引起相分離的模型[1]。作者認為在V H -D H J H 重排過程中可能也存在類似的機制 。作者假設在染色質中存在5%的可供交聯的位點,這些位點間按照設定的反應動力學特徵動態地發生可逆的交聯與解交聯(Figure 4b, Supplementary Methods)。隨著處於交聯態時間的增長,距離~時間函數的波動范圍逐漸減小。當交聯完全不可逆時(τ = + ),距離~時間軌跡完全分層。
之後,作者進一步提出交聯的染色質與未交聯的染色質之間形成兩相,前者形成凝膠相(固相),而後者處於溶膠相(液相)。作者想探究Igh基因座在相圖中具體處於什麼位置。為此,作者在模型中嘗試不同的交聯強度,從不可逆(強凝膠)到可逆(弱凝膠),到交聯完全不能發生(溶膠)。基於不同的交聯強度計算模擬產生的MSD ~ τ 曲線也不同,當τ=10s(紅色曲線)時,模擬值與實驗值最為接近(Fig. 5a)。因此,作者認為 Igh基因座所處環境應當屬於一種弱凝膠狀態,在相圖中臨近凝膠和溶膠的兩相交界處 。
總之,以上結果共同表明,染色質環限制了Igh位點的全局構象,而交聯作用則對位點的局部構象變化進行限制,二者共同導致了V H -D H J H 的運動表現為subdiffusive 。
雙色熒光捕捉系統使得作者可以觀測到V H 與D H J H 片段首次發生相遇的時間(first-passage times, FPT)(考慮到檢測誤差,當V H 與D H J H 的距離小於某一閾值後,即被認定為相遇)。
對於V H -D H J H 初始距離較遠(>0.55 μm)的細胞亞群,在整個成像時間范圍內幾乎檢測不到V H 與D H J H 相遇。而在V H -D H J H 初始距離較近(<0.55 μm)的細胞亞群中,超過40%的細胞中的V H 與D H J H 片段在幾分鍾內相遇(Fig. 5b)。基於模型的模擬預測結果與實驗結果相一致(Fig 5c)。
接下來,作者還探究了FPT與V H -D H J H 空間位置的關系,模擬結果與實驗數據也顯示出了良好的一致性,二者共同顯示,FTP與V H -D H J H 的平均距離呈正相關關系,斜率大約為2/α,這與之前報道的研究結果也具有良好的一致性(Fig. 5d)。
這些結果再次支持了Igh基因座所在的染色質環境可能屬於弱凝膠。
本文開發了一種可以同時追蹤V H 和D H J H 片段的運動軌跡的實驗方法,並由此觀察到了V H 和D H J H 片段的運動具有subdiffusive的特點。這種限制使得當V H 與D H J H 在空間中的起始距離較近時,可以更有效地搜尋到對方。同時與之相對的,當二者在空間中的起始距離較遠時,環境限制可以進一步降低他們相遇的可能性。染色質環參與這樣一過程。通過將D H 與J H 在空間中拉近,並將V H 與二者分隔,從而對D H 與J H 的重連其促進作用,同時阻止V H 與D H J H 過早地重排。
此外,本文提出,Igh基因所在的染色質位點處於弱交聯狀態,在相圖中位於凝膠相內,但靠近凝膠與溶膠相的邊界。因此,細胞可能可以通過對交聯的強度進行調控,細微的變化就可以使局部染色質從溶膠相切換至凝膠相,形成相分離液滴,促進相同液滴內的染色質片段的相遇,並對對位於液滴內外或不同液滴的染色質片段的相遇起阻礙作用。而當交聯減弱染色質狀態從凝膠相向溶膠相變化時,液滴溶解,可以為下一次重新形成液滴做准備,從而實現Igh位點快速有序的組裝(Fig. 6)。
盡管本文提出的模型可以很好的解釋實驗數據,但是不能排除其他機制參與的可能性。因此,想確切地證明交聯對V H -D H J H 的運動的影響,還需要對 參與交聯的分子 進行進一步探究。比如,參與交聯的分子有怎樣的性質?這些分子是如何聚集並被調控的?
已有的研究表明,pro-B細胞中存在復雜的染色質互作網路,並且該互作網路不依賴於CTCF,而是與E2A,PU.1,FOXO1以及PAX5有相關。這其中, E2A蛋白引起了作者的特別興趣。該蛋白已被觀察到在發育過程中可以聚集形成液滴,並且參與抗原受體基因座的組裝調控。已有的遺傳和生化證據顯示,E2A將 P300 和 BRG1 募集到 E2A 結合位點。BRG1的功能尚不清楚,但是已知P300的可以乙醯化組蛋白 H3 和 H4 尾部的賴氨酸殘基,並進而招募BRD4。此外,E2A自身包含有轉錄激活結構域,且這些結構域大多是無序的,可以像其他轉錄調節因子一樣聚集形成液滴。
盡管在大多數細胞中,V H 和D H J H 的運動表現為強烈地subdiffusive,但也存在一小部分細胞,他們的α指數突然升高。作者認為這種升高是由染色質構象的瞬時變化引起的,這些變化包括形成染色質環、DNA復制結構域或者核變形。其中最有可能的是形成染色質環,染色質環的形成可以重排Igh基因座內的V H 區域,將不同的V H 片段遞送至重組中心。
本文的研究證明了基因組結構如何影響抗原受體編碼基因中V H -D H J H 的運動。具體而言,受限於染色質結構,只有在空間中相對臨近的V H -D H J H 才有機會組裝在一起。那麼接下來還有一個問題: 這種機制如何建立多樣化的受體庫 。對此,作者提出了以下機制:首先,染色質環將 D H 與J H 圍在一個互作域(loop domain)中,在這個結構域中,轉錄因子誘導交聯,促進凝膠液滴形成。液滴內, D H 與J H 有更高的概率相遇,同時液滴阻止了 D H 或J H 先與V H 發生連接。D H -J H 重連接產物形成後,轉錄因子活性下降,表觀遺傳標記被擦除,液滴溶解。染色質形成一個新的將V H 與D H J H 同時包含在內的染色質環,E2A、EBF1 和 PAX5 等轉錄因子將指導 P300 乙醯化動V H 內的H3 和 H4 殘基,促進凝膠液滴形成,使得與D H J H 靠近的 V H 與D H J H 連接,發生V H -D H J H 重排。在此模型下,不是整個的V H 區域嘗試與D H J H 連接,而是只有位於附近的少數特定幾個V H 片段有機會參與重排。
此外,作者還提出:重排過程中的等位基因排斥(allelic exclusion)現象也可以被相分離模型解釋。轉錄調節因子可以通過建立或擦除組蛋白上的乙醯化修飾,調節液滴的快速組裝與解體,從而保障重排可以快速發生,並在之後不需要的時候被抑制。
[1] Boija, A. et al. Transcription factors activate genes through phase-separation capacity of their activation domains. Cell 175, 1842–1855 (2018).
⑹ 簡述基因組學的研究對疾病的診斷,治療有什麼意義
1基因組學與葯物遺傳學
人類基因組計劃的順利實施,真正成為生命科學領域第一項巨大的科學工程,催生孕育了基因組學的誕生。基因組學知識的迅速拓展,已涉及到新葯的研製和隨後的臨床應用領域。對於許多葯物來說,它們的療效和毒性存在很大的個體差異,因此需要測定這些變化的遺傳基礎以及按照他們的基因型進行治療。遺傳因素對於葯物作用的影響可導致葯動學(如吸收、分布、代謝、排泄)或葯效學的差異性,或者在某些情況下,根據遺傳因素的差異劃分疾病的亞型。基因型影響葯動學已有P450等位基因的差異對於葯物代謝的影響得到證實。人們已通過嚴格定義的多態性來鑒定等位基因編碼的酶,如P4502D6和P4502Cl9,業已建立的表型試驗已用於測定這些多態性,基因型實驗已能夠預測在個體中這些酶何時處於葯物代謝的低水平狀態。人們已經能夠常規地應用不同的P450基因型評價新葯在臨床試驗中的療效,這代表著以P450基因型為基礎的個體化治療的第一步。
由於葯物結合位點微妙構造的變化,就葯物靶與葯物作用的敏感性而言,葯物作用的葯效學受遺傳差異的影響。葯物的細胞攫取和排出,甚至葯物靶的精確的生理功能也存在著個體差異。葯物結合位點的遺傳差異影響葯物療效的一個新例子是支氣管擴張葯沙丁醇胺(salbutamol,舒喘靈)。舒喘靈的作用靶是β-2-腎上腺素能受體(beta-2-adrenergic receptor),該葯物作為激動劑發揮作用。人們在研究了269位哮喘兒童後發現,β-2-腎上腺素能受體上第16位氨基酸甘氨酸或精氨酸的變化與舒喘靈療效的差異相關。舒喘靈對精氨酸純合子(homozygous,在一定位點上具有一對相同等位基因)個體比對甘氨酸純合子個體的作用強5倍。很明顯,舒喘靈對哮喘的治療作用依賴於葯物靶和基因型的精細結構。
在單因素疾病發病機制研究中發現,微妙的遺傳學上的改變導致了葯物作用的變化,但這一變化與基礎葯動學和葯效學無關。應用HMGCoA還原酶抑制劑普伐他丁治療冠狀動脈粥樣硬化的最新研究很能說明這一問題。在這一研究中,篩選出807位病人具有編碼膽甾烯脂轉移蛋白(CFTP,)的兩個等位基因,該蛋白對高密度脂蛋白(HDL)膽固醇的代謝起關鍵作用。病人分成兩組,一組給予普伐他丁,另一組給予安慰劑治療2年。在服用安慰劑的一組中,發現兩個CETP等位基因中的一個與動脈粥樣硬化的發展有密切關系。服用普伐他丁的一組沒有發現遺傳水平的變化,普伐他丁對服用安慰劑一組的病人動脈粥樣硬化沒有任何作用,這一發現使得通過基因型預測哪些病人能夠使用普伐他丁治療。隨著研究的深入,可以認為,不同的基因型和不同的疾病過程具有相關性,因此可以對許多重大的疾病進一步分類。
哮喘病人的發病機制涉及到脂肪氧合酶(5-1ipoxygenase,ALOX5)途徑,AIDX5途徑的產物白細胞三烯與哮喘表型的表達有關,針對哮喘病人ALOX5途徑的治療失敗表明,在這些病人中白細胞三烯不是哮喘表型表達的關鍵因素,在染色體10q11.2上,ALOX5基因的核心啟動子的DNA序列家屬改變與組織培養中啟動子受體活性的減小有關,因為它們是 AIOX5表達與轉錄的調控部分。因此,核心啟動子DNA序列家屬改變的病人降低了基因的轉錄,進而減少了AIOX5產物白細胞三烯的產生,降低了葯物作用於此途徑的療效。
葯物遺傳學對新葯研究和臨床應用將產生巨大的影響,在葯物研究中,根據基因型對病人分類,可以獲得良好的治療效果。由於療效影響到臨床研究的規模,良好的治療效果能夠更快速,小規模地完成臨床試驗。如此小規模的順利研究將取得與大樣本量少量有效、大量無效實驗等同的效果。
基於遺傳水平的疾病亞型和相應的不同治療效果,來劃分病人的群體,以達到合理的、可預測的治療結果將取代現行的葯理學臨床試驗方法,尤其像高血脂症、骨質疏鬆症這樣需數月或數年治療才能見效的疾病。這些疾病的遺傳水平上的分類,是葯物臨床試驗研究的重要方向。
2 葯物基因組學
面對基因型特異性治療的成功,有必要按照基因型特異性療效重新分類現有的葯物,有必要證明足夠數量的等位基因的差別,以及這些差別在人群的比例。尋找所有這些遺傳水平上的差別在葯物研究以及治療學上的意義,該研究被稱為葯物基因組學。
葯物基因組學的定義還不夠確切,直到最近這一新領域的定義大體上接近葯物遺傳學,一些高通量的技術被用來測定葯物應答的基因型標志。現在,葯物基因組學的大致含義包括:葯物效應的基因型預測和基因組學在醫葯工業上的應用,在分子水平證明和闡述葯物療效,葯物作用的靶位、作用模式和毒副作用。
⑺ ubuntu檢測mothur安裝成功的命令
Mothur命令教程
從這個頁面http://www.mothur.org/wiki/Category:Commands
上查閱的所有命令,根據個人理解翻譯了一下。個人能力有限,會有不當之處。
A-G (查看時請用Ctrl+F快捷鍵)
Align.check
這個命令使你計算16S rRNA基因序列中潛在的錯配鹼基對數目。如果你對ARB(http://www.arb-home.de/)的編輯窗口熟悉的話,這與計算~,#,-和=這些符號的數目相同。用greengenes的二級結構圖譜和esophagus dataset運行這個命令。要運行這個命令,你必須提供FASTA格式的序列文件。
Align.seqs
這個命令把用戶提供的FASTA格式的候選序列文件對齊到用戶提供的同樣格式的模板序列。通用的方法是:
1.採用kmer searching(http://sourceforge.net/apps/mediawiki/kmer/index.php?title=Main_Page),blastn或suffix tree searching找到每個候選序列的最接近模板
2.在候選序列文件和空位模板序列之間進行鹼基配對,採用Needleman-Wunsch,Gotoh,或者blastn演算法規則。
3.重新在候選和模板序列對之間插入間隔(空位),採用NAST演算法,這樣候選序列就能與原始模板序列兼容。
我們提供了一些16S和18S基因序列的資料庫,這些是與greengenes和SILVA隊列兼容的。然而,自定義的任何DNA序列的排列都可以用作模板,所以鼓勵用戶分享他們的排列供其他人使用。普遍來說,進行排列是很快的-我們能在3小時內將超過186000個的全長序列排序到SILVA排列中,而且質量像SINA aligner做的一樣好。另外,這個速率可以由多個處理器加倍。
Amova
分子方差分析(Analysis of molecular variance)是一種傳統方差分析的非參數模擬。這種方法被廣泛應用在種群遺傳學以檢測關於兩個種群的遺傳多樣性不是顯著不同於由這兩個種群的共同聯合導致的多樣性這樣一個假設。
Anosim
參考文獻:Clarke, K. R. (1993). Non-parametric multivariate analysis of changes in community structure. _Australian Journal of Ecology_ 18, 117-143. 群落結構變化的非參數多元分析《澳大利亞生態學報》
Bin.seqs
這個命令輸出一個fasta格式的文件,其中序列根據它們所屬的OTU進行排序。這樣的輸出也許對一個OTU生成特異性引物有幫助,用來對序列進行分類。
Catchall
這個命令使mothur與Linda Woodard,Sean Connolly和John Bunge開發的catchall程序連接。獲取更多信息,請參看http://www.northeastern.e/catchall/index.html。catchall的可執行程序必須與你的mothur在同一個文件夾里。如果你是一個Mac或Linux用戶,你必須也安裝了mono,在catchall的網頁中有一個關於mono的鏈接。
Chimera.bellerophon
採用Bellerophon方法生成一個挑選的優先嵌合序列的得分列表。
Chimera.ccode
採用Ccode方法。對每個詞語,在查詢序列和參考序列之間對比距離的差異,以及參考序列與它們自己。
Chimera.check
採用chimeraCheck方法...注意:從RDP模型中,這個方法不能決定一個序列是否是嵌合的,但是讓你決定那些基於產生的IS值的序列。
查看「查詢的序列的左邊到它的最近的匹配的距離+查詢的右邊到它最近的匹配的距離-整個查詢序列到它最近的匹配的距離」,通過多個窗口
Chimera.perseus
這個命令讀取並命名一個fasta文件,輸出潛在的嵌合序列。
Chimera.pintail
採用Pintall 方法。在不同的窗口中查詢一個序列,查看期望的差異與觀察到的差異之間的不同
Chimera.seqs
這個命令已經被拆分為6個分離的命令。
目前,mothur執行六種方法以確定一個序列是不是嵌合的。如果有一個你喜歡看到的演算法可以實施,請考慮一下或者貢獻給mothur項目,或者聯系開發者,我們將會考慮我們能做什麼。
chimera.bellerophon
chimera.pintail
chimera.check
chimera.ccode
chimera.slayer
chimera.uchime
Chimera.slayer
這個命令讀取一個fasta文件和參照文件,並輸出潛在的嵌合序列。原始演算法的開發者建議採用一個特殊的模版參照(例如,gold)。我們用silva參照文件提供silva-based 排列的資料庫。你將需要在blast/bin文件夾中有megablast和formatdb可執行文件的拷貝,這里blast文件夾與mothur可執行程序相鄰。megablast/formatdb的版本可以在這里
ftp://ftp.ncbi.nlm.nih.gov/blast/executables/release/2.2.25/找到,或者它們就包含在mothur的程序版本中。
Chimera.uchime
這個命令讀取一個fasta文件和參考文件,並輸出潛在的嵌合序列。原始的uchime程序是由Robert C. Edgar編寫的,並且貢獻為公共所有。
http://drive5.com/uchime/
Chop.seqs
這個命令讀取一個fasta文件,輸出一個.chop.fasta,包含著修剪的整理的序列。它可以用於排序的和未排序的序列。
Classify.otu
這個命令用來為一個OTU得到一個共有序列分類.
Classify.seqs
這個命令允許用戶使用多個不同的方法把他們的序列分配到他們選擇的分類提綱(輪廓)中。當前的方法包括採用一個k-nearest鄰近共有序列和Bayesian方法。分類提綱和參考序列可以在taxonomy outline(http://www.mothur.org/wiki/Taxonomy_outline)的頁面中獲得。這個命令需要你提供一個fasta格式的輸入文件和資料庫序列文件,還要有一個為了參考序列的分類文件。
Classify.tree
這個命令用來為一個進化樹的每個節點獲得一個共有序列。
Clear.memory
這個命令從內存中刪除保存的參考數據,你可以在已經用以下命令(align.seqs, chimera.ccode, chimera.check, chimera.pintail, chimera.slayer和classify.seqs)之一使用過保存參數之後使用chear.memory.
Clearcut
這個讓mothur用戶在mothur內部運行clearcut程序。chearcut程序是由Idaho大學的Initiative for Bioinformatics和Evolutionary Studies(IBEST)編寫。了解更多clearcut相關信息,參看http://bioinformatics.hungry.com/clearcut/。注意,在版本1.13.0中,clearcut源碼已經加進mothur,所以你不再需要clearcut的可執行程序。當然,如果你願意,你仍可以從這里下載clearcut的可執行文件http://www.mothur.org/wiki/Download_Clearcut
Cluster
一旦一個距離矩陣讀進mothur,cluster命令就能用來給OTUs分派序列。目前,mothur採用三個分簇方式。
最近鄰:從OTU的最相似序列,一個OTU內的每一個序列都最多x%的距離
最遠鄰:一個OTU內的所有序列與OTU內的所有其它序列最多有X%的距離
平均鄰近:這個方法介於另外兩個演算法的中間水平
如果您有一個演算法,請考慮一下貢獻給mothur項目。
Cluster.classic
這個命令可用於把序列分配到OTUs.它是cluster的dotur工具,目前mothur採用三個分簇方式。
Cluster.fragments
這個命令需要一個fasta格式的文件,也要提供
一個命名的文件而且當一個序列被確定為一個更大的序列的一部分時,列出的與序列名相關的指明文件就會被合並。
Cluster.split
這個命令用來分配序列到OTUs並輸出一個.list, .rabund, .sabund文件.它把大的距離矩陣拆分為小的部分。
Collect.shared
這個命令給計算器生成一個收集曲線,描繪出不同群落間的相似性或它們的共有豐度。Collector's curves描繪隨著你樣本增加的個體,豐富度和多樣性的變化。如果Collector's curves變得與x軸平行,你可以合理的確信你在采樣這個工作上做的很好,並且相信曲線上的最終值。否則,你需要繼續抽樣(采樣),mothur能為collector's curves生成數據,就像sons做的那樣。當時sons將數據呈現在sons文件中,實際上不可能被新手分析解讀。mothur解決了許多這樣的問題,因為mothur為每一個估計值產生分離的文件。
Collect.single
Collect.single利用計算器(http://www.mothur.org/wiki/Calculators)生成collector's curves,描述了豐度,多樣性和樣本的其他特徵。Collector's curves描繪了你抽取額外的個體時豐度和多樣性的變化。
Consensus.seqs
這個命令可以以兩種方式使用:從fasta文件創建一個共有序列,或者由一個list文件為每個OTU創建一個共有序列。序列必須進行排列。
Consensus.seqs的參數(特徵,因素)是fasta, list, name和label
Cooccurrence
這個命令計算四個度量並且測試他們的顯著性以評估是否樣式的存在與否比起那些隨機期待的有所不同。
Corr.axes
這個命令將會計算在shared/relabund文件中每一行(或列)的相關系數,記錄在一個pcoa文件所顯示的軸線上。
Count.groups
這個命令從一個特定的組(group)或者一套組算出序列,從下面這些文件類型:group或者shared文件.
Count.seqs
這個命令計算在一個name文件中的代表性序列所代表的序列的數目。如果提供了一個group文件,它也會提供使group計數崩潰。
Create.database
這個命令讀取一個list文件,*.cons.taxonomy, *.rep.fasta, *.rep.names和可選的group文件,並且創建一個資料庫(database)文件.
Degap.seqs
這個命令讀取一個fasta文件並輸出一個.ng.fasta文件,它包含所有間隔字元都被移除後的序列。
Deunique.seqs
這個命令是unique.seqs的反向命令,從一個fasta和name文件創建一個fasta文件。
Deunique.tree
這個命令把冗餘序列標識符重新插入一個唯一的系統樹。
Dist.seqs
這個命令將計算兩個排序的DNA序列間不正確的成對距離。這個方法比通用的DNADIST更好,因為這些距離不是存儲在RAM(隨機存儲器)中,它們直接列印到一個文件。而且,通過它可以忽略可能不感興趣的「大的」距離。這個命令將產生一個列格式的距離矩陣,這個矩陣與read.dist命令中的「列選項」相互兼容。這個命令也能生成一個phylip格式的距離矩陣。它有多個如何操縱gap比較和末端gap的選項。
Dist.shared
這個命令將會生成一個phylip格式的距離矩陣,描述多個組的差異性。這個命令將會計算任何一個描述群落成員或結構相似性的計運算元(calculator)。
Fastq.info
這個命令讀取一個fastq文件,並創建一個fasta和quality文件。
Filter.seqs
filter.seqs從基於一個由用戶定義標準的排列刪除列。例如,生成的與參照排列相對的排列經常有一些列的每一個字元是「.」或者「-」。這些列不會包含用於計算距離,因為他們本身沒有信息。通過刪除這些列,計算大量的距離這一過程就會加快。同樣,人們也喜歡用溫和的或強制的屏蔽方式(比如Lane' mask)屏蔽他們的序列來移除可變區域。這類屏蔽只在深層次系統進化分析時鼓勵使用,而在精細水平的分析比如需要計算OTUs中不建議。
Get.coremicrobiome
這個命令決定可變數目的樣本中的OTUs的片段,為了不同的最小相關豐富度。
Get.current
這個命令允許你找出mothur已經為每個類型保存為current的一些文件,你也可以清空current文件。
Get.group
這個命令允許你為儲存在內存中的多個樣本的OTU數據獲得一個已有的不同群組的目錄。這個特徵應該在為其它命令使用group選項時有幫助。
Get.groups
這個命令從一個特定group或一套groups選擇序列。group來自以下文件類型:fasta,name,group,list,taxonomy.
Get.label
這個命令是你為當前儲存在內存中的每行OTU數據獲得一個標簽的目錄。這個特徵應該在為其他命令使用label選項時有幫助。
Get.lineage
這個命令讀取一個taxonomy文件和一個分類(taxon),並產生一個新的文件只包含有來自分類的序列。你也許也會把一個fasta, name, group, list或者align.report 文件包括到這個命令中,mothur將會為那些只包含有選定序列的文件生成新的文件。
Get.otulist
這個命令解析一個list文件並且為每一個包含兩列的距離創建一個.otu文件。第一列是OTU數目,第二列是那個OTU中的序列的列表(list)。
Get.oturep
bin.seqs命令能為所有序列報告OTU號碼(即編號),get.oturep命令生成一個fasta格式的序列文件,為每個OTU只包含一個代表性序列。為每個OTU的定義生成一個.rep.fasta和.rep.names文件。
Get.otus
這個命令選擇出包含有來自一個特定group或一副groups的序列的OTUs.
Get.rabund
這個命令將生成一個rabund文件,它基於你輸入到mothur的OTU數據。
Get.relabund
這個命令計算一個樣本中的每個OTU的相對豐富度。它將輸出一個.relabund文件。
Get.sabund
這個命令將產生一個sabund文件,基於你讀入mothur的OTU數據。例如,如果你讀入一個list文件,get.sabund將產生對應的sabund文件。
Get.seqs
這個命令把一個序列名字的列表(list)和一個fasta,name,group,list或align.report文件生成一個新的文件,只包含在list中出現的文件。這個命令也許用於和list.seqs命令結合以幫助顯示一個序列結合。
Get.sharedseqs
這個命令取一個list和group文件並為每個距離輸出一個*.shared.seqs文件。這對於那些情況有用,即你或許對於確定特殊groups中特定的或共有的序列感興趣。這樣接下來你就可以分類。
⑻ 什麼是NCBI。有什麼用途
http://www.ncbi.nlm.nih.gov/可以查詢基因蛋白序列。還能查詢部分文獻。
分子生物學最重要的一個網站,沒有它,很多事情就會變得很麻煩,如同源基因的比對、查詢。
下面是介紹:http://www.biosino.org/pages/ncbi-1.htm
NCBI(美國國立生物技術信息中心)簡介
》》》NCBI 資源介紹
介紹
理解自然無聲但精妙的關於生命細胞的語言是現代分子生物學的要求。通過只有四個字母來代表DNA化學亞基的字母表,出現了生命過程的語法,其最復雜形式就是人類。闡明和使用這些字母來組成新的「單詞和短語」是分子生物學領域的中心焦點。數目巨大的分子數據和這些數據的隱秘而精細的模式使得計算機化的資料庫和分析方法成為絕對的必須。挑戰在於發現新的手段去處理這些數據的容量和復雜性,並且為研究人員提供更好的便利來獲得分析和計算的工具,以便推動對我們遺傳之物和其在健康和疾病中角色的理解。
國立中心的建立
後來的參議員Claude Pepper意識到信息計算機化過程方法對指導生物醫學研究的重要性,發起了在1988年11月4日建立國立生物技術信息中心(NCBI)的立法。NCBI是在NIH的國立醫學圖書館(NLM)的一個分支。NLM是因為它在創立和維護生物信息學資料庫方面的經驗被選擇的,而且這可以建立一個內部的關於計算分子生物學的研究計劃。NCBI的任務是發展新的信息學技術來幫助對那些控制健康和疾病的基本分子和遺傳過程的理解。它的使命包括四項任務:
建立關於分子生物學,生物化學,和遺傳學知識的存儲和分析的自動系統
實行關於用於分析生物學重要分子和復合物的結構和功能的基於計算機的信息處理的,先進方法的研究
加速生物技術研究者和醫葯治療人員對資料庫和軟體的使用。
全世界范圍內的生物技術信息收集的合作努力。
NCBI通過下面的計劃來實現它的四項目的:
基本研究
NCBI有一個多學科的研究小組包括計算機科學家,分子生物學家,數學家,生物化學家,實驗物理學家,和結構生物學家,集中於計算分子生物學的基本的和應用的研究。這些研究者不僅僅在基礎科學上做出重要貢獻,而且往往成為應用研究活動產生新方法的源泉。他們一起用數學和計算的方法研究在分子水平上的基本的生物醫學問題。這些問題包括基因的組織,序列的分析,和結構的預測。目前研究計劃的一些代表是:檢測和分析基因組織,重復序列形式,蛋白domain和結構單元,建立人類基因組的基因圖譜,HIV感染的動力學數學模型,資料庫搜索中的序列錯誤影響的分析,開發新的資料庫搜索和多重序列對齊演算法,建立非冗餘序列資料庫,序列相似性的統計顯著性評估的數學模型,和文本檢索的矢量模型。另外,NCBI研究者還堅持推動與NIH內部其他研究所及許多科學院和政府的研究實驗室的合作。
資料庫和軟體
在1992年10月,NCBI承擔起對GenBank DNA序列資料庫的責任。NCBI受過分子生物學高級訓練的工作人員通過來自各個實驗室遞交的序列和同國際核酸序列資料庫(EMBL和DDBJ)交換數據建立起資料庫。同美國專利和商標局的安排使得專利的序列信息也被整合。
GenBank是NIH遺傳序列資料庫,一個所有可以公開獲得的DNA序列的注釋過的收集。GenBank同日本和歐洲分子生物學實驗室的DNA資料庫共同構成了國際核酸序列資料庫合作。這三個組織每天交換數據。
GenBank以指數形式增長,核酸鹼基數目大概每14個月就翻一個倍。最近,GenBank擁有來自47,000個物種的30億個鹼基。
孟德爾人類遺傳(OMIM),三維蛋白質結構的分子模型資料庫(MMDB),唯一人類基因序列集合(UniGene),人類基因組基因圖譜,分類學瀏覽器,同國立癌症研究所合作的癌症基因組剖析計劃(CGAP)。
Entrez是NCBI的為用戶提供整合的訪問序列,定位,分類,和結構數據的搜索和檢索系統。Entrez同時也提供序列和染色體圖譜的圖形視圖。Entrez是一個用以整合NCBI資料庫中信息的搜尋和檢索工具。這些資料庫包括核酸序列,蛋白序列,大分子結構,全基因組,和通過PubMed檢索的MEDLINE。Entrez的一個強大和獨特的特點是檢索相關的序列,結構,和參考文獻的能力。雜志文獻通過PubMed獲得,PubMed是一個網路搜索界面,可以提供對在MEDLINE上的九百萬雜志引用的訪問,包含了鏈接到參與的出版商網路站點的全文文章。
BLAST是一個NCBI開發的序列相似搜索程序,還可作為鑒別基因和遺傳特點的手段。BLAST能夠在小於15秒的時間內對整個DNA資料庫執行序列搜索。NCBI提供的附加的軟體工具有:開放閱讀框尋覓器(ORF Finder),電子PCR,和序列提交工具,Sequin和BankIt。所有的NCBI資料庫和軟體工具可以從WWW或FTP來獲得。NCBI還有E-mail伺服器,提供用文本搜索或序列相似搜索訪問資料庫一種可選方法。
教育和訓練
NCBI通過贊助會議,研討會,和系列演講來培養在應用於分子生物學和遺傳學的計算機領域的科學交流。一個科學訪問學者項目已經成立,來培養同外部科學家的合作。作為NIH內部的部分研究項目,也提供博士後工作位置。
http://www.ncbi.nlm.nih.gov/About/index.html
--------------------------------------------------------------------------------
相關文章:
NCBI站點地圖相關文章:
關於Database的一般介紹
Human Genome人類基因組數據介紹
其他基因組數據介紹
工具概述
其他各項介紹
NCBI癌症基因組研究介紹
NCBI-Coffee Break
NCBI-基因和疾病