⑴ 怎样批量计算基因编码区长度
有些时候我们需要知道转录本长度,比如在使用RNA-seq计算FPKM的时候,为了准确地评估不同基因的表达量,一般是用覆盖该基因/转录本的总reads数除以基因/转录本的长度,有些时候我们需要知道基因编码区的长度,比如在使用VAAST评估致病候选基因的时候,有些基因因为编码区特别长(如TTN)总是排名靠前,如果考虑到它的编码区长度后,排序将会更加科学。 那么怎样获得基因编码区长度呢?这个问题看起来比较简单,只要将每个外显子的长度加起来就可以了,对于单个转录本可以通过NCBI的CCDS数据库查询,但是基因有多个转录本,每个转录本的编码区有重合,所以基因编码区不是每个转录本编码区的简单相加,所以要想准确地获得每个基因的编码区长度并不容易,而且目前并没有现成的数据库,经过游侠在网上摸索后将相关方法整理如下,供大家参考。首先从sanger网站下载基因注释文件GTF,ftp://ftp.sanger.ac.uk/pub/gencode/Gencode_human/release_19/gencode.v19.annotation.gtf.gz。然后在R中使用GenomicFeatures工具包。library(GenomicFeatures)txdb <- makeTranscriptDbFromGFF("yourFile.gtf",format="gtf")收集每个基因的编码区编号exons.list.per.gene <-cdsBy(txdb,by="gene")通过rece函数避免重复计算重叠区exonic.gene.sizes <- lapply(exons.list.per.gene,function(x){sum(width(rece(x)))})生成的gene ID为ensemble编号,可以通过https://biodbnet-abcc.ncifcrf.gov/db/db2dbRes.php,转换为gene symbol。另外游侠已经处理好了人类所有基因的编码区长度,如果有需要的话,可以在微信号留言索取。
基因检测与解读(gh_561c4ccc5356)
查看原文 分享到微信 文章为作者独立观点,不代表微头条立场
基因检测与解读的最新文章
匪夷所思的遗传方式
我们知道常染色体隐性遗传一般是有缺陷的染色体分别来自父母两方,根据突变位点的位置是否相同分为纯合突变与复合杂合突变,但是你听说过两个有缺陷的位点全部来自父母一方吗?
基因检测与解读·09月19日 10:17
外显子
重新分析之前未确诊的临床全外显子案例可提高诊断率
本文主要介绍Genetics in Medicine(IF:7.7)杂志上的一篇论文pmid:27441994。
基因检测与解读·09月13日 12:14
基因检测文章
基因检测与解读文章列表
关注微信号回复数字查看文章
基因检测与解读·09月13日 12:14
RVAS是个什么鬼?居然将替代GWAS
在过去的8年中,GWAS(genome-wide association studies)研究被广泛地应用于解析遗传基因与复杂常见疾病和数量性状。
基因检测与解读·09月07日 11:17
样本
遗传家系样本采集有捷径
最近游侠君应邀参加某同学国自然课题讨论:一个大家系某种疾病的致病基因,当他拿出家系图并标出哪些样本有DNA时,游侠很吃惊,30多人的大家系居然只有5个人有DNA样本
基因检测与解读·08月26日 06:09
基因检测遗传病如何
临床医生该如何选择遗传病基因检测
最近本公众号接到一位女士的后台留言,请游侠帮忙解读基因报告,她有两岁的女儿,血小板低,治疗1年略有好转但仍不达标,无其他临床表现
基因检测与解读·08月26日 06:09
最大的项目
世界最大的先天性发育异常遗传研究---DDD项目
作者:周在威概况 “DDD计划”是一项创新型的罕见病课题项目,DDD是Deciphering De
基因检测与解读·08月13日 00:15
外显子如何
如何分析全外显子拷贝数变异
介绍XHMM与CODEX分析全外显子CNV。
基因检测与解读·08月13日 00:15
如何
如何从散发病例中寻找新致病基因
临床遗传医生在门诊过程中经常遇到不能明确基因诊断的病例,目前即使是全外显子测序也大约只有30%的遗传病能够找到致病基因,剩下的这些未明确基因案例积累多了对于发现新的致病基因就非常有价值
基因检测与解读·07月25日 10:37
动画
什么是DNA?3d动画告诉你
想查看原始动画的朋友请下载
基因检测与解读·07月25日 10:37
网站中心
以罕见病患者为中心的MyGene2网站
华盛顿大学的孟德尔基因组学医学中心创建了mygene2网站,使得患者及其家属参与临床医生和科学家寻找罕见疾病相关基因成为可能
基因检测与解读·07月25日 10:37
染色体基因组
寻找染色体断裂点-捕获测序or全基因组测序?
今天微信上有朋友询问染色体内倒位,通过捕获测序可以检测具体的断裂点吗?首先从理论上来说肯定是可以的,但是从性价比上来说肯定不如直接从全基因组测序。
基因检测与解读·07月25日 10:37
外显子
浅谈临床全外显子基因数据分析
临床全外显子测序方法与平台与科研外显子没有区别,都是利用序列捕获技术将全基因组外显子区域DNA捕捉并富集后进行高通量测序
基因检测与解读·07月25日 10:37
基因检测文章
基因检测与解读文章列表
关注微信号回复数字查看文章
基因检测与解读·07月25日 10:37
怎样批量计算基因编码区长度?
有些时候我们需要知道转录本长度,比如在使用RNA-seq计算FPKM的时候,为了准确地评估不同基因的表达量,一般是用覆盖该基因/转录本的总reads数除以基因/转录本的长度
基因检测与解读·07月25日 10:37
腹痛加反复低热也许是基因惹的祸
最近佛蒙特大学的Leonard教授建立了一个“了解你的基因组(Understand Your Genome)”工作组,其中73名佛蒙特大学教职工自愿测序他们的全基因组
基因检测与解读·07月17日 21:23
你知道基因有多长吗?
很多不懂生物的朋友会问我,基因有多长啊?这是个难以给出确定答案的问题,基因是一段有功能的DNA片段,由ATGC四种碱基组成,每个碱基成为1个bp,有的基因很长,目前最长的基因是DMD基因,全长2,220,291bp(来自NCBI)
基因检测与解读·07月16日 21:24
基因检测
基因检测报告解读不可缺
最近公众号收到一位读者的求助,希望游侠帮忙解读一下基因检测报告,她本人非常担心自己的健康状况,认为自己经过基因检测已经确诊为一种遗传病,不敢涂口红,不敢吃鸡肉,连家里的装修都停了
基因检测与解读·06月09日 10:21
科学家发现冠心病
科学家发现罕见基因位点可显着降低冠心病发病风险
随着人类的不断繁衍,基因也在不断的突变进化,大多数时候这些突变有可能会破坏人体的健康,比如单基因遗传病,但有些基因突变也许能够保护我们的健康,只是由于科学研究手段的缺乏,导致很难发现这样的有益突变
基因检测与解读·05月30日 01:29
基因检测欢乐颂做什么
《欢乐颂》中的安迪该做什么基因检测
最近电视剧《欢乐颂》非常火,剧中安迪的妈妈及外婆都患有严重的精神疾病,而弟弟小明有严重的智力低下
基因检测与解读·05月21日 11:48
地中海遗传病
一例疑似家族性地中海热遗传病的遗传分析
近日基因检测与解读微信公众号收到一位读者的求助,希望游侠能够帮忙解读基因检测报告
基因检测与解读·05月20日 00:30
基因组
CNV专题二:CREST分析全基因组拷贝数变异
这一期主要介绍利用CREST (Clipping REveals STructure)软件分析人全基因组测序拷贝数变异,上一期游侠提到目前的软件主要利用三种feature来计算CNV,而CREST主要利用其中的一种来计算
基因检测与解读·05月02日 15:09
基因组
CNV专题一:genomestrip2分析全基因组拷贝数变异
CNV又称拷贝数变异,包括缺失与重复,属于非平衡易位的一种,据文献估计每个人都有几千个CNV,这些CNV有大有小,很多都位于基因间或基因的内含子中
基因检测与解读·04月18日 00:31
一起学
一起学NGS数据分析之位点筛选二
在前面游侠介绍了利用Annovar注释之后的信息进行筛选位点,今天介绍VAAST软件如何进行候选致病位点的筛选
基因检测与解读·03月20日 22:21
资源
遗传家系资源交流平台
最近游侠接到一位读者的电话,他有一个3代2人患病的小家系,做了3例全外显子捕获测序筛选下来得到几十个候选基因位点,他想询问下一步该如何继续研究?
基因检测与解读·03月01日 12:23
一起学操作系统
一起学NGS数据分析之操作系统
由于很多免费及开源的软件都是在linux系统下运行,所以如果你要想学习生物信息分析,安装linux系统是逃不掉的,不过不要太担心,现在的linux系统早已不是当初的DOS命令行了
基因检测与解读·01月29日 00:08
基因组
人全基因组测序究竟强在哪里?
作为国内为数不多接触并分析过人全基因组测序(WGS)分析的人员之一,看到很多从业人员甚至专业的生物信息人员都对WGS不了解,游侠觉得有必要向大家普及一下全基因组测序究竟强在哪里!
基因检测与解读·01月19日 17:20
一起学检测
一起学NGS数据分析之肿瘤突变检测
上一节我们讲述了germline variation如何检测,这一期聊聊肿瘤体细胞之突变检测
基因检测与解读·01月15日 23:50
一起学检测
一起学NGS数据分析之检测突变
很久没有更新了,有读者留言期待后面的文章,所以我又开始写了,下次大家看到我没有更新,及时留言提醒我啊,不然我又偷懒了!
基因检测与解读·01月15日 03:50
如何
如何根据表达谱芯片数据巧妙设计定量PCR引物的位置
有朋友做完表达谱芯片寻找到有差异表达的基因后,设计引物定量PCR验证会发现对照样本与处理样本无显着性差异?这究竟是怎么回事呢?
基因检测与解读·01月06日 03:27
一起学
一起学NGS数据分析之数据质控
拿到基因测序公司的原始数据后,一般是clean data又称PF data,首先要做的就是查看数据量够不够以及测序的质量怎么样,目前最为流行的数据质量查看软件就是FastQC
基因检测与解读·01月03日 19:57
基因检测与解读
gh_561c4ccc5356
介绍基因检测新进展,交流临床基因测序结果,探讨基因数据分析流程与方法,发表自己对于基因行业的理解与看法,提供遗传咨询服务!
热门文章
1.空调室外机毁坏 物业公司有无责任
2.物业管理用房产权属于谁?
3.㊙男人苦,所以赌,男人忙,所以常常上错 床......(太精辟了)
4.▶小视频(很短,连看了7遍)
5.爱牙日|为宝宝的牙齿做点什么
6.【物管案例】业主起诉邻居私搭乱建,法院判限期拆除
7.忻州【小咖秀】058期:囡囡
8.㊙献给所有老同学
9. 水中分娩,你绝没见过......
10.《农村的玉米地里》一首歌 火了
最新文章
1.先抢先得 乐次元“爵无仅有”大礼包9月20日全面开售
2.Angelababy成茶叶商标(图)
3.你会调整后视镜吗?
4.3分16秒,正好拍到这一幕
5.【仲和堂】心如玉,世无双
6.10大坚果食用禁忌
7.人性/狗性/狼性
8.【仲和堂】中秋|天涯共此月圆时
9.汽车仪表指示灯,最全面的解释
基因检测与解读
gh_561c4ccc5356
介绍基因检测新进展,交流临床基因测序结果,探讨基因数据分析流程与方法,发表自己对于基因行业的理解与看法,提供遗传咨询服务!
本站文章来自网友的提交收录,版权归原作者所有,如需删除或申请收录,请联系微信号:iyipengcheng
我要入驻 公号大全
Copyright©2015 微头条 京ICP备14
⑵ IP是网战的网址还是电脑唯一的地址
在url上输入是进入不了的,除非对方提供的有http服务,想进入对方电脑可以用远程连接,前提是对方的远程连接打开,而且你知道对方开机的用户名和密码。
⑶ uniprot蛋白质序列数据库由哪几部分组成各有什么特点
将PIR、SWISS-PROT和TrEMBL3个蛋白质数据库统一-起来组建而成,包含3个部分:
(1) UniProt Knowledgebase (UniProtKB) ,这是蛋白质序列、功能、分类、交叉引用等蛋白质知识库,记录经过人工筛选和注释;
■ (2) UniRef ( UniProt Non-rendant Reference )
数据库,将密切相关的蛋白质序列组合到一条记录中,以便提高搜索速度;目前,根据序列相似程度形成3个子库,即UniRef100、UniRef90和UniRef50;
■ (3) UniParc (UniProt Archive),是UniProt存档库 ,
收录所有蛋白质序列。用户可以通过文本查询数据库,可以利用BLAST程序搜索数据库,也可以直接通过FTP下载数据。
⑷ IP怎么划分区域的。。
如何划分ip地址呢
现在的IP网络使用32位地址,以点分十进制表示,如172.16.0.0。地址格式为:IP地址=网络地址+主机地址 或 IP地址=主机地址+子网地址+主机地址子网掩码的设定遵循一定的规则,与IP地址相同,子网掩码的长度也是32位,左边是网络位,用二进制数字“1”表示;右边是主机位,用二进制数字“0”表示。
子网的划分,实际上就是设计子网掩码的过程。子网掩码主要是用来区分IP地址中的网络ID和主机ID,它用来屏蔽IP地址的一部分,从IP地址中分离出网络ID和主机ID.子网掩码是由4个十进制数组成的数值"中间用"."分隔,如255.255.255.0。若将它写成二进制的形式为:11111111.11111111.11111111.00000000,其中为"1"的位分离出网络ID,为"0"的位分离出主机ID,也就是通过将IP地址与子网掩码进行"与"逻辑操作,得出网络号。
子网掩码不单独存在,它结合IP地址一起使用。子网掩码的个作用是将某个IP地址划分成网络地址和主机地址两部分。 IP地址根据网络ID的不同分为5种类型,A类地址、B类地址、C类地址、D类地址和E类地址。那么如何划分ip地址呢?
1、A类IP地址
一个A类IP地址由1字节的网络地址和3字节主机地址组成,网络地址的最高位必须是“0”, 地址范围从1.0.0.0 到126.0.0.0。可用的A类网络有126个,每个网络能容纳1亿多个主机。
2、B类IP地址
一个B类IP地址由2个字节的网络地址和2个字节的主机地址组成,网络地址的最高位必须是“10”,地址范围从128.0.0.0到191.255.255.255。可用的B类网络有16382个,每个网络能容纳6万多个主机 。
3、C类IP地址
一个C类IP地址由3字节的网络地址和1字节的主机地址组成,网络地址的最高位必须是“110”。范围从192.0.0.0到223.255.255.255。C类网络可达209万余个,每个网络能容纳254个主机。
4、D类地址用于多点广播(Multicast)。
D类IP地址第一个字节以“lll0”开始,它是一个专门保留的地址。它并不指向特定的网络,目前这一类地址被用在多点广播(Multicast)中。多点广播地址用来一次寻址一组计算机,它标识共享同一协议的一组计算机。
5、E类IP地址
以“llll0”开始,为将来使用保留。 全零(“0.0.0.0”)地址对应于当前主机。全“1”的IP地址(“255.255.255.255”)是当前子网的广播地址。
在IP地址3种主要类型里,各保留了3个区域作为私有地址,也就是比较常用的ip地址。其地址范围如下:
A类地址:10.0.0.0~10.255.255.255
B类地址:172.16.0.0~172.31.255.255
C类地址:192.168.0.0~192.168.255.255
(1)A类地址
A类地址的表示范围为:0.0.0.0~126.255.255.255,默认网络掩码为:255.0.0.0,A类网络用第一组数字表示网络本身的地址,后面三组数字作为连接于网络上的主机的地址,即高端位0,接下来7位表示网络ID,其余24位表示宿主机ID。A类地址分配给具有大量主机(直接个人用户)而局域网络个数较少的型网络。例如IBM公司的网络。
A类地址适合于网络较少而节点较多的情况,网络数为128个,每一网向络的节点数为1600个。
(2)B类地址
B类地址的表示范围为:128.0.0.0~223.255.255.255,默认网络掩码为:255.0.0.0。B类地址分配给一般的中型网络。B类网络用第一、二组数字表示网络的地址,后面两组数字代表网络上的主机地址,即高端位10,接下来14位表示网络ID,其余16位表示宿主机ID。
B类地址适合于网络数和节点数适中的情况,网络数为16000个,每一网络的节点数为64000个。
(3)C类地址
C类地址的表示范围为:192.0.0.0.~223.255.255.255,默认网络掩码为:255.255.255.0;C类地址分配给小型网络,如一般的局域网和校园网,它可连接的主机数量是最少的,采用所属的用户分为若干的网段进行管理。C类网络用前三组数字表示网络的地址,最后一组数字作为网络上的主机地址,即高端位110,接下来的21位表示网络ID,其余8位表示宿主机ID。
C类地址适合于网络数较多而节点较少的情况,网络数为2百万个,每个网络的节点数为256个。
例如说“131.108.1.56子网掩码255.255.255.0 这个IP和子网掩码是统一的,可以说地址属于B而掩码属于C吗?”,是不合适的。子网掩码是不属于IP地址的分类的。
⑸ 文献阅读 | 相分离与VDJ重排 (2019, Nature Communication)
抗体表达基因通过V H - D H J H 重排产生多样的抗体库,而该过程涉及到基因组内的远程相互作用。
本文的作者开发了一种双荧光活细胞成像手段,可以同时跟踪B淋巴细胞中V H 与 D H J H 片段的运动,并由此观察到:V H 与 D H J H 片段的在细胞核内的运动受限,只能在局部发生移动。起始距离较近的V H 与 D H J H 片段在细胞核内始终靠近,而初始距离较远的V H 与D H J H 在观察中也一直保持较远的距离。但同时作者也观察到在少部分细胞中这种限制被打破,V H 与D H J H 的距离发生巨大的改变,作者认为在这些细胞中可能发生了染色质构象的改变。
通过对实验数据进行模拟建模,作者提出:正常细胞核内的染色质处于溶胶环境中,而在Igh基因座附近染色质相互交联,导致环境发生从溶胶向凝胶的相变,凝胶环境限制了V H 与 D H J H 片段运动。
B细胞来源于骨髓中的 共同淋巴祖细胞(common lymphoid progenitor cell, CLP ,CLP分化产生 pro-B 细胞。
在pro-B细胞中,抗体重链基因座(Igh)发生 V H - D H - J H 重排。这一过程中,首先发生的是 D H 与 J H 连接形成 D H J H 重组,然后 V H 片段再与 D H J H 重组。 V H - D H J H 重组后,pro-B细胞分化为pre-B细胞。在pre-B细胞中,抗体的轻链基因发生重组。之后,pre-B细胞分化成具有抗体表达能力的immature-B细胞,离开骨髓,迁移前往外周淋巴细胞。
在V、D、J片段侧翼分布有重组信号序列,RAG1和RAG2两种核酸内切酶可以识别并结合到该位点,引发DNA双链断裂,为基因组重排提供结构基础。V H 区分为远端和近端两个簇,在基因组约占2.7 Mb。C H 区下游有成簇的CTCF结合位点,V H 区的两侧也有CTCF结合位点,并且与C H 区下游的CTCF结合位点方向相对。结合在V H 区两侧的CTCF将V H 区与D H J H 区隔离,抑制过早发生V H 片段与D H J H 片段重排
在Igh 的基因座,V H - D H J H 区域的DNA上有大量的表观遗传修饰。这些修饰是发育阶段特异性的,参与V H - D H J H 重排。
E2A和HEB蛋白参与此过程。具体而言,Igh基因座内有E2A结合位点,E2A结合到Igh基因座后募集乙酰转移酶 P300,使结合位点所在区域内的染色质的组蛋白的H3 和H4尾部的赖氨酸残基发生乙酰化修饰,并进一步招募染色质重塑因子BRD4,促进染色质内部交联并发生相分离。在活化的成熟B细胞中,研究者和观察到E2A蛋白聚集成液滴形状。
之前的研究可以使用单荧光标记V H 片段或D H J H 片段,观察它们在基因组中的运动。而本文开发了一种双色荧光标记手段(Figure 1),可以同时对活细胞内的V H 片段和D H J H 片段的运动轨迹进行追踪,并测量两片段之间的距离。
通过与3D-FISH的结果进行比较,作者证明了新开发方法的有效性(Figure 2)。
根据双荧光成像结果, 作者计算了不同细胞内的V H 片段与D H J H 片段间的距离随时间变化的曲线 ,得到Figure 3a,图中每条曲线代表一个细胞。
首先,由于图中检测到的V H 片段与D H J H 片段间的距离变异幅度较大(距离从0.2-1.2 μm不等),作者认为这表明在群体细胞中Igh基因座的染色质构型具有多样性。并且因为二者间的距离分布呈双峰状,所以作者提出Igh基因座应当至少存在2种优势染色质构型。按照每个细胞内的V H 与D H J H 片段在400s内的平均距离对曲线进行染色后可以看出,不同颜色的曲线明显分层。即V H 与D H J H 间的距离相对恒定,仅围绕某一平均值上下浮动。
总之,以上的结果表明, V H 与D H J H 片段的运动高度受限,可以在局部空间内移动,但是整体距离保持稳定 。
接下来,作者使用均方位移(mean-squared displacements,MSD)和速度自相关函数(velocity autocorrelation functions)两个指标进一步说明此问题 。均方位移计算了不同位点在长度为τ移的一段时间内的位移的平方的平均值。而速度自相关函数则计算了位点对在相隔为τ的一段时间前后的速度平均值的相关程度(平均速度计算自位点在长度为δ的时间内的位移)。
Figure 3b显示了每个细胞内 MSD随τ的变化曲线 ,对所有细胞进行平均得到Figure 3C。根据MSD ~ τ 曲线计算出scaling exponent α (MSD与时间τ的α次方程正比),无论是D H J H -D H J H (染色体间,绿色)还是V H -D H J H (染色体内,红色)的 α 都小于1,这表明二者的 扩散受到限制(subdiffusive) ,且V H -D H J H 受到的限制更强(α更小)。速度自相关函数随τ的变化曲线显示,V H 与D H J H 两个片段间的运动呈现负相关关系(Fig 3d),作者认为这可能是因为环境对其起到了push-back作用。
尽管在大多数细胞中,V H 与D H J H 的距离相对恒定,但是作者也指出在大约10%的细胞中,V H -D H J H 距离变异较大,MSD ~ τ 曲线的α系数急剧上升,即在这些细胞中,V H 与D H J H 片段运动受到的环境约束较小。作者认为在这些细胞中可能发生了染色质构象变化。
为了探究环境限制V H -D H J H 运动的机制,使用分子动力学模拟手段对染色质构象进行建模 ,来模拟使用3D-FISH实验手段绘制得到的V H -D H J H 的空间距离随二者在基因组上的线性距离变化的函数曲线。
首先,作者指出3D-FISH距离曲线中一个重要特点是有一个平台期。作者作者将染色质视为弹簧串珠结构,构建了4种不同的模型:
(1)无结构限制模型
(2)单环构象
(3)双环构象
(4)多环或环境限制构象
模拟结果显示,只有多环构象可以再现出平台期这一特点(Figure 4a)。因此,作者提出, 染色质环可能是V H -D H J H 运动的主要限制来源 。
然而,尽管多环染色质构象可以模拟出3D-FISH距离曲线中的平台期,但是基于该模型模拟产生的V H -D H J H 距离随时间变化曲线的变异幅度过大,导致不同细胞的距离-时间曲线交织在一起(Figure 4c),与Figure 3a中观察到的曲线分层特征明显不符。因此,作者认为 除染色质环以外应当还存在另外一种限制,对V H 和D H J H 片段的局部运动进行约束 。
作者假设第二层约束来源于染色质交联作用 。
之前有研究提出了超级增强子介导染色质交联引起相分离的模型[1]。作者认为在V H -D H J H 重排过程中可能也存在类似的机制 。作者假设在染色质中存在5%的可供交联的位点,这些位点间按照设定的反应动力学特征动态地发生可逆的交联与解交联(Figure 4b, Supplementary Methods)。随着处于交联态时间的增长,距离~时间函数的波动范围逐渐减小。当交联完全不可逆时(τ = + ),距离~时间轨迹完全分层。
之后,作者进一步提出交联的染色质与未交联的染色质之间形成两相,前者形成凝胶相(固相),而后者处于溶胶相(液相)。作者想探究Igh基因座在相图中具体处于什么位置。为此,作者在模型中尝试不同的交联强度,从不可逆(强凝胶)到可逆(弱凝胶),到交联完全不能发生(溶胶)。基于不同的交联强度计算模拟产生的MSD ~ τ 曲线也不同,当τ=10s(红色曲线)时,模拟值与实验值最为接近(Fig. 5a)。因此,作者认为 Igh基因座所处环境应当属于一种弱凝胶状态,在相图中临近凝胶和溶胶的两相交界处 。
总之,以上结果共同表明,染色质环限制了Igh位点的全局构象,而交联作用则对位点的局部构象变化进行限制,二者共同导致了V H -D H J H 的运动表现为subdiffusive 。
双色荧光捕捉系统使得作者可以观测到V H 与D H J H 片段首次发生相遇的时间(first-passage times, FPT)(考虑到检测误差,当V H 与D H J H 的距离小于某一阈值后,即被认定为相遇)。
对于V H -D H J H 初始距离较远(>0.55 μm)的细胞亚群,在整个成像时间范围内几乎检测不到V H 与D H J H 相遇。而在V H -D H J H 初始距离较近(<0.55 μm)的细胞亚群中,超过40%的细胞中的V H 与D H J H 片段在几分钟内相遇(Fig. 5b)。基于模型的模拟预测结果与实验结果相一致(Fig 5c)。
接下来,作者还探究了FPT与V H -D H J H 空间位置的关系,模拟结果与实验数据也显示出了良好的一致性,二者共同显示,FTP与V H -D H J H 的平均距离呈正相关关系,斜率大约为2/α,这与之前报道的研究结果也具有良好的一致性(Fig. 5d)。
这些结果再次支持了Igh基因座所在的染色质环境可能属于弱凝胶。
本文开发了一种可以同时追踪V H 和D H J H 片段的运动轨迹的实验方法,并由此观察到了V H 和D H J H 片段的运动具有subdiffusive的特点。这种限制使得当V H 与D H J H 在空间中的起始距离较近时,可以更有效地搜寻到对方。同时与之相对的,当二者在空间中的起始距离较远时,环境限制可以进一步降低他们相遇的可能性。染色质环参与这样一过程。通过将D H 与J H 在空间中拉近,并将V H 与二者分隔,从而对D H 与J H 的重连其促进作用,同时阻止V H 与D H J H 过早地重排。
此外,本文提出,Igh基因所在的染色质位点处于弱交联状态,在相图中位于凝胶相内,但靠近凝胶与溶胶相的边界。因此,细胞可能可以通过对交联的强度进行调控,细微的变化就可以使局部染色质从溶胶相切换至凝胶相,形成相分离液滴,促进相同液滴内的染色质片段的相遇,并对对位于液滴内外或不同液滴的染色质片段的相遇起阻碍作用。而当交联减弱染色质状态从凝胶相向溶胶相变化时,液滴溶解,可以为下一次重新形成液滴做准备,从而实现Igh位点快速有序的组装(Fig. 6)。
尽管本文提出的模型可以很好的解释实验数据,但是不能排除其他机制参与的可能性。因此,想确切地证明交联对V H -D H J H 的运动的影响,还需要对 参与交联的分子 进行进一步探究。比如,参与交联的分子有怎样的性质?这些分子是如何聚集并被调控的?
已有的研究表明,pro-B细胞中存在复杂的染色质互作网络,并且该互作网络不依赖于CTCF,而是与E2A,PU.1,FOXO1以及PAX5有相关。这其中, E2A蛋白引起了作者的特别兴趣。该蛋白已被观察到在发育过程中可以聚集形成液滴,并且参与抗原受体基因座的组装调控。已有的遗传和生化证据显示,E2A将 P300 和 BRG1 募集到 E2A 结合位点。BRG1的功能尚不清楚,但是已知P300的可以乙酰化组蛋白 H3 和 H4 尾部的赖氨酸残基,并进而招募BRD4。此外,E2A自身包含有转录激活结构域,且这些结构域大多是无序的,可以像其他转录调节因子一样聚集形成液滴。
尽管在大多数细胞中,V H 和D H J H 的运动表现为强烈地subdiffusive,但也存在一小部分细胞,他们的α指数突然升高。作者认为这种升高是由染色质构象的瞬时变化引起的,这些变化包括形成染色质环、DNA复制结构域或者核变形。其中最有可能的是形成染色质环,染色质环的形成可以重排Igh基因座内的V H 区域,将不同的V H 片段递送至重组中心。
本文的研究证明了基因组结构如何影响抗原受体编码基因中V H -D H J H 的运动。具体而言,受限于染色质结构,只有在空间中相对临近的V H -D H J H 才有机会组装在一起。那么接下来还有一个问题: 这种机制如何建立多样化的受体库 。对此,作者提出了以下机制:首先,染色质环将 D H 与J H 围在一个互作域(loop domain)中,在这个结构域中,转录因子诱导交联,促进凝胶液滴形成。液滴内, D H 与J H 有更高的概率相遇,同时液滴阻止了 D H 或J H 先与V H 发生连接。D H -J H 重连接产物形成后,转录因子活性下降,表观遗传标记被擦除,液滴溶解。染色质形成一个新的将V H 与D H J H 同时包含在内的染色质环,E2A、EBF1 和 PAX5 等转录因子将指导 P300 乙酰化动V H 内的H3 和 H4 残基,促进凝胶液滴形成,使得与D H J H 靠近的 V H 与D H J H 连接,发生V H -D H J H 重排。在此模型下,不是整个的V H 区域尝试与D H J H 连接,而是只有位于附近的少数特定几个V H 片段有机会参与重排。
此外,作者还提出:重排过程中的等位基因排斥(allelic exclusion)现象也可以被相分离模型解释。转录调节因子可以通过建立或擦除组蛋白上的乙酰化修饰,调节液滴的快速组装与解体,从而保障重排可以快速发生,并在之后不需要的时候被抑制。
[1] Boija, A. et al. Transcription factors activate genes through phase-separation capacity of their activation domains. Cell 175, 1842–1855 (2018).
⑹ 简述基因组学的研究对疾病的诊断,治疗有什么意义
1基因组学与药物遗传学
人类基因组计划的顺利实施,真正成为生命科学领域第一项巨大的科学工程,催生孕育了基因组学的诞生。基因组学知识的迅速拓展,已涉及到新药的研制和随后的临床应用领域。对于许多药物来说,它们的疗效和毒性存在很大的个体差异,因此需要测定这些变化的遗传基础以及按照他们的基因型进行治疗。遗传因素对于药物作用的影响可导致药动学(如吸收、分布、代谢、排泄)或药效学的差异性,或者在某些情况下,根据遗传因素的差异划分疾病的亚型。基因型影响药动学已有P450等位基因的差异对于药物代谢的影响得到证实。人们已通过严格定义的多态性来鉴定等位基因编码的酶,如P4502D6和P4502Cl9,业已建立的表型试验已用于测定这些多态性,基因型实验已能够预测在个体中这些酶何时处于药物代谢的低水平状态。人们已经能够常规地应用不同的P450基因型评价新药在临床试验中的疗效,这代表着以P450基因型为基础的个体化治疗的第一步。
由于药物结合位点微妙构造的变化,就药物靶与药物作用的敏感性而言,药物作用的药效学受遗传差异的影响。药物的细胞攫取和排出,甚至药物靶的精确的生理功能也存在着个体差异。药物结合位点的遗传差异影响药物疗效的一个新例子是支气管扩张药沙丁醇胺(salbutamol,舒喘灵)。舒喘灵的作用靶是β-2-肾上腺素能受体(beta-2-adrenergic receptor),该药物作为激动剂发挥作用。人们在研究了269位哮喘儿童后发现,β-2-肾上腺素能受体上第16位氨基酸甘氨酸或精氨酸的变化与舒喘灵疗效的差异相关。舒喘灵对精氨酸纯合子(homozygous,在一定位点上具有一对相同等位基因)个体比对甘氨酸纯合子个体的作用强5倍。很明显,舒喘灵对哮喘的治疗作用依赖于药物靶和基因型的精细结构。
在单因素疾病发病机制研究中发现,微妙的遗传学上的改变导致了药物作用的变化,但这一变化与基础药动学和药效学无关。应用HMGCoA还原酶抑制剂普伐他丁治疗冠状动脉粥样硬化的最新研究很能说明这一问题。在这一研究中,筛选出807位病人具有编码胆甾烯脂转移蛋白(CFTP,)的两个等位基因,该蛋白对高密度脂蛋白(HDL)胆固醇的代谢起关键作用。病人分成两组,一组给予普伐他丁,另一组给予安慰剂治疗2年。在服用安慰剂的一组中,发现两个CETP等位基因中的一个与动脉粥样硬化的发展有密切关系。服用普伐他丁的一组没有发现遗传水平的变化,普伐他丁对服用安慰剂一组的病人动脉粥样硬化没有任何作用,这一发现使得通过基因型预测哪些病人能够使用普伐他丁治疗。随着研究的深入,可以认为,不同的基因型和不同的疾病过程具有相关性,因此可以对许多重大的疾病进一步分类。
哮喘病人的发病机制涉及到脂肪氧合酶(5-1ipoxygenase,ALOX5)途径,AIDX5途径的产物白细胞三烯与哮喘表型的表达有关,针对哮喘病人ALOX5途径的治疗失败表明,在这些病人中白细胞三烯不是哮喘表型表达的关键因素,在染色体10q11.2上,ALOX5基因的核心启动子的DNA序列家属改变与组织培养中启动子受体活性的减小有关,因为它们是 AIOX5表达与转录的调控部分。因此,核心启动子DNA序列家属改变的病人降低了基因的转录,进而减少了AIOX5产物白细胞三烯的产生,降低了药物作用于此途径的疗效。
药物遗传学对新药研究和临床应用将产生巨大的影响,在药物研究中,根据基因型对病人分类,可以获得良好的治疗效果。由于疗效影响到临床研究的规模,良好的治疗效果能够更快速,小规模地完成临床试验。如此小规模的顺利研究将取得与大样本量少量有效、大量无效实验等同的效果。
基于遗传水平的疾病亚型和相应的不同治疗效果,来划分病人的群体,以达到合理的、可预测的治疗结果将取代现行的药理学临床试验方法,尤其像高血脂症、骨质疏松症这样需数月或数年治疗才能见效的疾病。这些疾病的遗传水平上的分类,是药物临床试验研究的重要方向。
2 药物基因组学
面对基因型特异性治疗的成功,有必要按照基因型特异性疗效重新分类现有的药物,有必要证明足够数量的等位基因的差别,以及这些差别在人群的比例。寻找所有这些遗传水平上的差别在药物研究以及治疗学上的意义,该研究被称为药物基因组学。
药物基因组学的定义还不够确切,直到最近这一新领域的定义大体上接近药物遗传学,一些高通量的技术被用来测定药物应答的基因型标志。现在,药物基因组学的大致含义包括:药物效应的基因型预测和基因组学在医药工业上的应用,在分子水平证明和阐述药物疗效,药物作用的靶位、作用模式和毒副作用。
⑺ ubuntu检测mothur安装成功的命令
Mothur命令教程
从这个页面http://www.mothur.org/wiki/Category:Commands
上查阅的所有命令,根据个人理解翻译了一下。个人能力有限,会有不当之处。
A-G (查看时请用Ctrl+F快捷键)
Align.check
这个命令使你计算16S rRNA基因序列中潜在的错配碱基对数目。如果你对ARB(http://www.arb-home.de/)的编辑窗口熟悉的话,这与计算~,#,-和=这些符号的数目相同。用greengenes的二级结构图谱和esophagus dataset运行这个命令。要运行这个命令,你必须提供FASTA格式的序列文件。
Align.seqs
这个命令把用户提供的FASTA格式的候选序列文件对齐到用户提供的同样格式的模板序列。通用的方法是:
1.采用kmer searching(http://sourceforge.net/apps/mediawiki/kmer/index.php?title=Main_Page),blastn或suffix tree searching找到每个候选序列的最接近模板
2.在候选序列文件和空位模板序列之间进行碱基配对,采用Needleman-Wunsch,Gotoh,或者blastn算法规则。
3.重新在候选和模板序列对之间插入间隔(空位),采用NAST算法,这样候选序列就能与原始模板序列兼容。
我们提供了一些16S和18S基因序列的数据库,这些是与greengenes和SILVA队列兼容的。然而,自定义的任何DNA序列的排列都可以用作模板,所以鼓励用户分享他们的排列供其他人使用。普遍来说,进行排列是很快的-我们能在3小时内将超过186000个的全长序列排序到SILVA排列中,而且质量像SINA aligner做的一样好。另外,这个速率可以由多个处理器加倍。
Amova
分子方差分析(Analysis of molecular variance)是一种传统方差分析的非参数模拟。这种方法被广泛应用在种群遗传学以检测关于两个种群的遗传多样性不是显着不同于由这两个种群的共同联合导致的多样性这样一个假设。
Anosim
参考文献:Clarke, K. R. (1993). Non-parametric multivariate analysis of changes in community structure. _Australian Journal of Ecology_ 18, 117-143. 群落结构变化的非参数多元分析《澳大利亚生态学报》
Bin.seqs
这个命令输出一个fasta格式的文件,其中序列根据它们所属的OTU进行排序。这样的输出也许对一个OTU生成特异性引物有帮助,用来对序列进行分类。
Catchall
这个命令使mothur与Linda Woodard,Sean Connolly和John Bunge开发的catchall程序连接。获取更多信息,请参看http://www.northeastern.e/catchall/index.html。catchall的可执行程序必须与你的mothur在同一个文件夹里。如果你是一个Mac或Linux用户,你必须也安装了mono,在catchall的网页中有一个关于mono的链接。
Chimera.bellerophon
采用Bellerophon方法生成一个挑选的优先嵌合序列的得分列表。
Chimera.ccode
采用Ccode方法。对每个词语,在查询序列和参考序列之间对比距离的差异,以及参考序列与它们自己。
Chimera.check
采用chimeraCheck方法...注意:从RDP模型中,这个方法不能决定一个序列是否是嵌合的,但是让你决定那些基于产生的IS值的序列。
查看“查询的序列的左边到它的最近的匹配的距离+查询的右边到它最近的匹配的距离-整个查询序列到它最近的匹配的距离”,通过多个窗口
Chimera.perseus
这个命令读取并命名一个fasta文件,输出潜在的嵌合序列。
Chimera.pintail
采用Pintall 方法。在不同的窗口中查询一个序列,查看期望的差异与观察到的差异之间的不同
Chimera.seqs
这个命令已经被拆分为6个分离的命令。
目前,mothur执行六种方法以确定一个序列是不是嵌合的。如果有一个你喜欢看到的算法可以实施,请考虑一下或者贡献给mothur项目,或者联系开发者,我们将会考虑我们能做什么。
chimera.bellerophon
chimera.pintail
chimera.check
chimera.ccode
chimera.slayer
chimera.uchime
Chimera.slayer
这个命令读取一个fasta文件和参照文件,并输出潜在的嵌合序列。原始算法的开发者建议采用一个特殊的模版参照(例如,gold)。我们用silva参照文件提供silva-based 排列的数据库。你将需要在blast/bin文件夹中有megablast和formatdb可执行文件的拷贝,这里blast文件夹与mothur可执行程序相邻。megablast/formatdb的版本可以在这里
ftp://ftp.ncbi.nlm.nih.gov/blast/executables/release/2.2.25/找到,或者它们就包含在mothur的程序版本中。
Chimera.uchime
这个命令读取一个fasta文件和参考文件,并输出潜在的嵌合序列。原始的uchime程序是由Robert C. Edgar编写的,并且贡献为公共所有。
http://drive5.com/uchime/
Chop.seqs
这个命令读取一个fasta文件,输出一个.chop.fasta,包含着修剪的整理的序列。它可以用于排序的和未排序的序列。
Classify.otu
这个命令用来为一个OTU得到一个共有序列分类.
Classify.seqs
这个命令允许用户使用多个不同的方法把他们的序列分配到他们选择的分类提纲(轮廓)中。当前的方法包括采用一个k-nearest邻近共有序列和Bayesian方法。分类提纲和参考序列可以在taxonomy outline(http://www.mothur.org/wiki/Taxonomy_outline)的页面中获得。这个命令需要你提供一个fasta格式的输入文件和数据库序列文件,还要有一个为了参考序列的分类文件。
Classify.tree
这个命令用来为一个进化树的每个节点获得一个共有序列。
Clear.memory
这个命令从内存中删除保存的参考数据,你可以在已经用以下命令(align.seqs, chimera.ccode, chimera.check, chimera.pintail, chimera.slayer和classify.seqs)之一使用过保存参数之后使用chear.memory.
Clearcut
这个让mothur用户在mothur内部运行clearcut程序。chearcut程序是由Idaho大学的Initiative for Bioinformatics和Evolutionary Studies(IBEST)编写。了解更多clearcut相关信息,参看http://bioinformatics.hungry.com/clearcut/。注意,在版本1.13.0中,clearcut源码已经加进mothur,所以你不再需要clearcut的可执行程序。当然,如果你愿意,你仍可以从这里下载clearcut的可执行文件http://www.mothur.org/wiki/Download_Clearcut
Cluster
一旦一个距离矩阵读进mothur,cluster命令就能用来给OTUs分派序列。目前,mothur采用三个分簇方式。
最近邻:从OTU的最相似序列,一个OTU内的每一个序列都最多x%的距离
最远邻:一个OTU内的所有序列与OTU内的所有其它序列最多有X%的距离
平均邻近:这个方法介于另外两个算法的中间水平
如果您有一个算法,请考虑一下贡献给mothur项目。
Cluster.classic
这个命令可用于把序列分配到OTUs.它是cluster的dotur工具,目前mothur采用三个分簇方式。
Cluster.fragments
这个命令需要一个fasta格式的文件,也要提供
一个命名的文件而且当一个序列被确定为一个更大的序列的一部分时,列出的与序列名相关的指明文件就会被合并。
Cluster.split
这个命令用来分配序列到OTUs并输出一个.list, .rabund, .sabund文件.它把大的距离矩阵拆分为小的部分。
Collect.shared
这个命令给计算器生成一个收集曲线,描绘出不同群落间的相似性或它们的共有丰度。Collector's curves描绘随着你样本增加的个体,丰富度和多样性的变化。如果Collector's curves变得与x轴平行,你可以合理的确信你在采样这个工作上做的很好,并且相信曲线上的最终值。否则,你需要继续抽样(采样),mothur能为collector's curves生成数据,就像sons做的那样。当时sons将数据呈现在sons文件中,实际上不可能被新手分析解读。mothur解决了许多这样的问题,因为mothur为每一个估计值产生分离的文件。
Collect.single
Collect.single利用计算器(http://www.mothur.org/wiki/Calculators)生成collector's curves,描述了丰度,多样性和样本的其他特征。Collector's curves描绘了你抽取额外的个体时丰度和多样性的变化。
Consensus.seqs
这个命令可以以两种方式使用:从fasta文件创建一个共有序列,或者由一个list文件为每个OTU创建一个共有序列。序列必须进行排列。
Consensus.seqs的参数(特征,因素)是fasta, list, name和label
Cooccurrence
这个命令计算四个度量并且测试他们的显着性以评估是否样式的存在与否比起那些随机期待的有所不同。
Corr.axes
这个命令将会计算在shared/relabund文件中每一行(或列)的相关系数,记录在一个pcoa文件所显示的轴线上。
Count.groups
这个命令从一个特定的组(group)或者一套组算出序列,从下面这些文件类型:group或者shared文件.
Count.seqs
这个命令计算在一个name文件中的代表性序列所代表的序列的数目。如果提供了一个group文件,它也会提供使group计数崩溃。
Create.database
这个命令读取一个list文件,*.cons.taxonomy, *.rep.fasta, *.rep.names和可选的group文件,并且创建一个数据库(database)文件.
Degap.seqs
这个命令读取一个fasta文件并输出一个.ng.fasta文件,它包含所有间隔字符都被移除后的序列。
Deunique.seqs
这个命令是unique.seqs的反向命令,从一个fasta和name文件创建一个fasta文件。
Deunique.tree
这个命令把冗余序列标识符重新插入一个唯一的系统树。
Dist.seqs
这个命令将计算两个排序的DNA序列间不正确的成对距离。这个方法比通用的DNADIST更好,因为这些距离不是存储在RAM(随机存储器)中,它们直接打印到一个文件。而且,通过它可以忽略可能不感兴趣的“大的”距离。这个命令将产生一个列格式的距离矩阵,这个矩阵与read.dist命令中的“列选项”相互兼容。这个命令也能生成一个phylip格式的距离矩阵。它有多个如何操纵gap比较和末端gap的选项。
Dist.shared
这个命令将会生成一个phylip格式的距离矩阵,描述多个组的差异性。这个命令将会计算任何一个描述群落成员或结构相似性的计算子(calculator)。
Fastq.info
这个命令读取一个fastq文件,并创建一个fasta和quality文件。
Filter.seqs
filter.seqs从基于一个由用户定义标准的排列删除列。例如,生成的与参照排列相对的排列经常有一些列的每一个字符是“.”或者“-”。这些列不会包含用于计算距离,因为他们本身没有信息。通过删除这些列,计算大量的距离这一过程就会加快。同样,人们也喜欢用温和的或强制的屏蔽方式(比如Lane' mask)屏蔽他们的序列来移除可变区域。这类屏蔽只在深层次系统进化分析时鼓励使用,而在精细水平的分析比如需要计算OTUs中不建议。
Get.coremicrobiome
这个命令决定可变数目的样本中的OTUs的片段,为了不同的最小相关丰富度。
Get.current
这个命令允许你找出mothur已经为每个类型保存为current的一些文件,你也可以清空current文件。
Get.group
这个命令允许你为储存在内存中的多个样本的OTU数据获得一个已有的不同群组的目录。这个特征应该在为其它命令使用group选项时有帮助。
Get.groups
这个命令从一个特定group或一套groups选择序列。group来自以下文件类型:fasta,name,group,list,taxonomy.
Get.label
这个命令是你为当前储存在内存中的每行OTU数据获得一个标签的目录。这个特征应该在为其他命令使用label选项时有帮助。
Get.lineage
这个命令读取一个taxonomy文件和一个分类(taxon),并产生一个新的文件只包含有来自分类的序列。你也许也会把一个fasta, name, group, list或者align.report 文件包括到这个命令中,mothur将会为那些只包含有选定序列的文件生成新的文件。
Get.otulist
这个命令解析一个list文件并且为每一个包含两列的距离创建一个.otu文件。第一列是OTU数目,第二列是那个OTU中的序列的列表(list)。
Get.oturep
bin.seqs命令能为所有序列报告OTU号码(即编号),get.oturep命令生成一个fasta格式的序列文件,为每个OTU只包含一个代表性序列。为每个OTU的定义生成一个.rep.fasta和.rep.names文件。
Get.otus
这个命令选择出包含有来自一个特定group或一副groups的序列的OTUs.
Get.rabund
这个命令将生成一个rabund文件,它基于你输入到mothur的OTU数据。
Get.relabund
这个命令计算一个样本中的每个OTU的相对丰富度。它将输出一个.relabund文件。
Get.sabund
这个命令将产生一个sabund文件,基于你读入mothur的OTU数据。例如,如果你读入一个list文件,get.sabund将产生对应的sabund文件。
Get.seqs
这个命令把一个序列名字的列表(list)和一个fasta,name,group,list或align.report文件生成一个新的文件,只包含在list中出现的文件。这个命令也许用于和list.seqs命令结合以帮助显示一个序列结合。
Get.sharedseqs
这个命令取一个list和group文件并为每个距离输出一个*.shared.seqs文件。这对于那些情况有用,即你或许对于确定特殊groups中特定的或共有的序列感兴趣。这样接下来你就可以分类。
⑻ 什么是NCBI。有什么用途
http://www.ncbi.nlm.nih.gov/可以查询基因蛋白序列。还能查询部分文献。
分子生物学最重要的一个网站,没有它,很多事情就会变得很麻烦,如同源基因的比对、查询。
下面是介绍:http://www.biosino.org/pages/ncbi-1.htm
NCBI(美国国立生物技术信息中心)简介
》》》NCBI 资源介绍
介绍
理解自然无声但精妙的关于生命细胞的语言是现代分子生物学的要求。通过只有四个字母来代表DNA化学亚基的字母表,出现了生命过程的语法,其最复杂形式就是人类。阐明和使用这些字母来组成新的“单词和短语”是分子生物学领域的中心焦点。数目巨大的分子数据和这些数据的隐秘而精细的模式使得计算机化的数据库和分析方法成为绝对的必须。挑战在于发现新的手段去处理这些数据的容量和复杂性,并且为研究人员提供更好的便利来获得分析和计算的工具,以便推动对我们遗传之物和其在健康和疾病中角色的理解。
国立中心的建立
后来的参议员Claude Pepper意识到信息计算机化过程方法对指导生物医学研究的重要性,发起了在1988年11月4日建立国立生物技术信息中心(NCBI)的立法。NCBI是在NIH的国立医学图书馆(NLM)的一个分支。NLM是因为它在创立和维护生物信息学数据库方面的经验被选择的,而且这可以建立一个内部的关于计算分子生物学的研究计划。NCBI的任务是发展新的信息学技术来帮助对那些控制健康和疾病的基本分子和遗传过程的理解。它的使命包括四项任务:
建立关于分子生物学,生物化学,和遗传学知识的存储和分析的自动系统
实行关于用于分析生物学重要分子和复合物的结构和功能的基于计算机的信息处理的,先进方法的研究
加速生物技术研究者和医药治疗人员对数据库和软件的使用。
全世界范围内的生物技术信息收集的合作努力。
NCBI通过下面的计划来实现它的四项目的:
基本研究
NCBI有一个多学科的研究小组包括计算机科学家,分子生物学家,数学家,生物化学家,实验物理学家,和结构生物学家,集中于计算分子生物学的基本的和应用的研究。这些研究者不仅仅在基础科学上做出重要贡献,而且往往成为应用研究活动产生新方法的源泉。他们一起用数学和计算的方法研究在分子水平上的基本的生物医学问题。这些问题包括基因的组织,序列的分析,和结构的预测。目前研究计划的一些代表是:检测和分析基因组织,重复序列形式,蛋白domain和结构单元,建立人类基因组的基因图谱,HIV感染的动力学数学模型,数据库搜索中的序列错误影响的分析,开发新的数据库搜索和多重序列对齐算法,建立非冗余序列数据库,序列相似性的统计显着性评估的数学模型,和文本检索的矢量模型。另外,NCBI研究者还坚持推动与NIH内部其他研究所及许多科学院和政府的研究实验室的合作。
数据库和软件
在1992年10月,NCBI承担起对GenBank DNA序列数据库的责任。NCBI受过分子生物学高级训练的工作人员通过来自各个实验室递交的序列和同国际核酸序列数据库(EMBL和DDBJ)交换数据建立起数据库。同美国专利和商标局的安排使得专利的序列信息也被整合。
GenBank是NIH遗传序列数据库,一个所有可以公开获得的DNA序列的注释过的收集。GenBank同日本和欧洲分子生物学实验室的DNA数据库共同构成了国际核酸序列数据库合作。这三个组织每天交换数据。
GenBank以指数形式增长,核酸碱基数目大概每14个月就翻一个倍。最近,GenBank拥有来自47,000个物种的30亿个碱基。
孟德尔人类遗传(OMIM),三维蛋白质结构的分子模型数据库(MMDB),唯一人类基因序列集合(UniGene),人类基因组基因图谱,分类学浏览器,同国立癌症研究所合作的癌症基因组剖析计划(CGAP)。
Entrez是NCBI的为用户提供整合的访问序列,定位,分类,和结构数据的搜索和检索系统。Entrez同时也提供序列和染色体图谱的图形视图。Entrez是一个用以整合NCBI数据库中信息的搜寻和检索工具。这些数据库包括核酸序列,蛋白序列,大分子结构,全基因组,和通过PubMed检索的MEDLINE。Entrez的一个强大和独特的特点是检索相关的序列,结构,和参考文献的能力。杂志文献通过PubMed获得,PubMed是一个网络搜索界面,可以提供对在MEDLINE上的九百万杂志引用的访问,包含了链接到参与的出版商网络站点的全文文章。
BLAST是一个NCBI开发的序列相似搜索程序,还可作为鉴别基因和遗传特点的手段。BLAST能够在小于15秒的时间内对整个DNA数据库执行序列搜索。NCBI提供的附加的软件工具有:开放阅读框寻觅器(ORF Finder),电子PCR,和序列提交工具,Sequin和BankIt。所有的NCBI数据库和软件工具可以从WWW或FTP来获得。NCBI还有E-mail服务器,提供用文本搜索或序列相似搜索访问数据库一种可选方法。
教育和训练
NCBI通过赞助会议,研讨会,和系列演讲来培养在应用于分子生物学和遗传学的计算机领域的科学交流。一个科学访问学者项目已经成立,来培养同外部科学家的合作。作为NIH内部的部分研究项目,也提供博士后工作位置。
http://www.ncbi.nlm.nih.gov/About/index.html
--------------------------------------------------------------------------------
相关文章:
NCBI站点地图相关文章:
关于Database的一般介绍
Human Genome人类基因组数据介绍
其他基因组数据介绍
工具概述
其他各项介绍
NCBI癌症基因组研究介绍
NCBI-Coffee Break
NCBI-基因和疾病