当前位置:首页 » 数据仓库 » 国家基因数据库
扩展阅读
webinf下怎么引入js 2023-08-31 21:54:13
堡垒机怎么打开web 2023-08-31 21:54:11

国家基因数据库

发布时间: 2023-05-11 19:36:43

❶ 国家基因库:人类存储健康信息的“生命银行”

深圳市大鹏新区大鹏街道下沙片区禾塘仔,这里依山傍海,环境优美,背山面海的几栋白色的建筑并不起眼,但令人难以置信的是,庞大的数据如同螺旋一般,每天从这里源源不断地涌出。这些白色的梯田造型的建筑就是中国首个获批筹建的国家基因库,也是目前全球最大的综合性基因库。

国家基因库项目一期占地面积4.75万平方米,拥有基因测序房、超级计算房以及冷冻资源房,相较于其庞大的建枣圆蠢筑规模,它丰富的内容更是令人瞠目结舌:国家基因库目前已存储多种生物资源样本1000万份,可检索生物信息条目数已经超过一个亿,我国更是计划把它打造成为中国的诺亚方舟,建立一个巨大的生物活体库,保护和保存世界约三十万种植物、百万种动物、近千万种微生物活体资源。如此大手笔、高规格的项目究竟什么来头?建立国家基因库的意义何在?下面就让我们一起走进关于国家基因库的专业解读。

“科普中国”是中国科协携同社会各方利用信息化手段开展科学传播的科学权威品牌。

本文由科普中国融合创作出品,转载请注明出处。

❷ 国家基因组科学数据中心怎么用

sisichen �
关注
国家基因组科学数据中心(NGDC)---组学原始数据如何上传GSA 原创
2022-04-25 14:44:31

sisichen �

码龄4年

关注
文章目录
前言
一、什么是NGDC?
二、NGDC的发展历程
三、什么是GSA?
四、为什么选择上传数据到GSA?
五、如何上传测序原始数据至GSA?(重点!!附详细步骤!!)
1. 准备要上传的数据
2. 计算MD5码
3.进入NGDC主页,登入账户
4. 填写数据信息
第一步:建立Bioproject。
第二步:建立BioSample。
第三步:创建GSA。
进入GSA数据库
新建GSA
填写信息
下载表格文件
5. 数据上传:
(1). 通过FTP软件 上传(上传需要流量!!如果小数据可以用)
(2). 通过服务器上传(推荐!!):如果实验室有服务器的话,推荐服务器上传,步骤如下:(服务器上要先安装ftp )
(3)邮寄硬盘
6.等待审核
总结
前言
在发表文章之前我们需要将测序的原始数据上传到一个公共库,并在文中提供accession number,实现数据的公开共享,这是国际惯例。以前我们上传数据时只能上传到美国国立生物技术信息中心(NCBI)、欧洲生物信息学研究所(EBI)、日本核酸数据库(DDBJ),现在中国科学院北京基因组研究所(国家生物信息中心)国家基因组科学数据中心 (CNCB-NGDC)—中国的 “NCBI” 已经建立并日渐完善。组学原始数据归档库(GSA)是组学原始数据汇交、存储、管理与共享系统,是国内首个被国际期刊认可的组学数据发布平台。GSA已获得多个国际期刊认可,并已被国际着名出版商Elsevier收录为指定的基因数据归档库,其权威性得到国内外100余家学术杂志的认可。GSA已通过FAIRsharing认证,获得Wiley出版集团认可,因此我们不用担心上传数据到GSA不被期刊认可,也不用再舍近求远上传数据到NCBI,作为中国人,我们一定要支持我们NGDC中的数据库。本文介绍了如何上传测序原始数据到GSA,附详细操作步骤。

一、什么是NGDC?
国家基因组科学数据中心(https://ngdc.cncb.ac.cn/;NGDC)于2019年6月5日经科技部、财政部通知公布,由鲍一明研究员作为学术带头人,以中国科学院北京基因组研究所(国家生物信息中心)作为依托单位,联合中国科学院生物物理研究所和中国科学院上海营养与健康研究所共同建设。中心面向我国人口健康和社会可持续发展的重大战略需求,建立生命健康组学大数据储存、整合与挖掘分析研究体系,研发生物多样性与健康大数据汇交、应用与共享平台,发展大数据系统解析与转化应用的新技术和新方法,建设支撑我国生命科学发展、国际知名的基因组科学数据中心。

2020年中心开发了8个全新数据库 (2019nCoVR,Aging Atlas,BrainBase,CGIR,GTDB,LncExpDB,scMethBank和TransCirc),更新和丰富了多个核心数据库资源 (BioProject,BioSample,GSA,GWH,GVM,GEN和生物多样性资源等),涉及疾病、衰老、调控和生物多样性等多个前沿领域,初步形成我国生物数据安全汇交管理和多组学数据平台的国家中心数据资源体系。数据库建设整体情况以“Database Resources of the National Genomics Data Center, China National Center for Bioinformation in 2021”为题在国际学术期刊《核酸研究》(Nucleic Acids Research)在线发表。

NGDC的主要致力于以下三方面的工作:①围绕中国人群普惠健康的精准医学相关组学信息资源,完善建立中国人群基因组遗传变异图谱,形成中国人群精准医学信息库;②基于高通量测序的海量原始组学数据资源,建立符合国际标准的原始组学数据归档库,形成中国原始组学数据的共享平台;③围绕国家重要战略生物资源,建立海量组学数据的整合、挖掘与应用体系,形成综合性的多组学数据库系统。

在这里插入图片描述

常用资源:
生物项目数据库(BioProject):是收集与共享生物学研究项目信息的资源库,涵盖的项目类型包括常规组学研究的基因组、转录组、表观组和宏基因组等,并针对大型项目提供高效、安全、专业化的项目分级管理。
生物样本数据库(BioSample):是收集与与共享生物样品信息的资源库,提供生物样品单结构化描述信息递交和发布,涵盖的样品类型包括人、动物、植物、微生物(含环境微生物)、病毒等,提供批量数据上传和离线数据递交服务。通常一个BioProjiect对应一个BioSample,如果多个样本可以批量设置BioSample,也就是一个BioProject对应多个Biosample。
组学原始数据归档库(GSA):植物/动物
组学原始数据归档库 (GSA-Human):人类遗传资源数据,需要备案
多元数据归档库(OMIX):如要共享的代谢组数据,影像,Excel等,上述两个库不能存放的,上传到这个库。
生物工具库(Biocode):存放代码,部分替代github
基因组序列数据库(GWH):类似于NCBI 的genebank, 基因组拼接组装完的数据可以上传到这里
基因组变异库(GVM):等同于NCBI DDSNP(19年后只接受人的),包括人动物作物的单核苷酸多态性变异,call SNP 变异的数据上传这里
生物数据库目录(DBCommons ):根据引用(平均年引用)评价一些数据库,如DVide和KEGG等
基因表达数据库(GEN):等同于国际上的GO
甲基化数据库(MethBank)

二、NGDC的发展历程
生物信息的数据要海量整合后才会有价值,割裂的数据库只完成了“存”却难以走向“使用”, 为了解决我国基因组数据存管用难、数据流失严重、核心基因组科学信息资源先“出口”再“进口”的问题,国家基因组科学数据中心应运而生。从2016年到2022年,短短6年的时间,NGDC已经发展成为全球主要的生物数据中心。
在这里插入图片描述
在这里插入图片描述

三、什么是GSA?
组学原始数据归档库(Genome Sequence Archive,简称GSA)是组学原始数据汇交、存储、管理与共享系统,是国内首个被国际期刊认可的组学数据发布平台, 主要汇交实验信息(Experiment Metadata)、测序反应信息(Run Metadata)信息以及归档测序文件数据(Sequence Data file)。

GSA的系统建设遵循了国际核酸序列共享联盟(InternationalNucleotide Sequence Database Collaboration,INSDC)的相关标准,并作为INSDC的补充,旨在减轻国际相关数据库数据存贮及数据传输的压力;立足中国,服务全球。由于中国国际网络出口带宽的瓶颈问题,数据传输效率低下。以中国科学院北京基因组研究所的150Mbs出口带宽为例,向NCBI数据库递交1TB的数据需要花费2周以上的时间。GSA的建立可以让国人享受更快的传输速度,更贴心的服务!

截至2022年4月,GSA已为国内外多个单位提供免费数据存储服务,累计用户递交项目信息超过572,259个,用户提交的测序数据量超过13.23PB。
在这里插入图片描述

四、为什么选择上传数据到GSA?
上传GSA数据库的几大理由:

1.符合数据战略安全要求;
2. 是国内首个被国际期刊认可的组学数据发布平台;
3.界面可切换为中文,契合大家阅读习惯;
4.人性化设置,例如公布日期可随时修改,数据未公开前可一键分享给审稿人查看,数据上传信息修改、增添方便等等;
5.多途径协助数据上传, 上传数据快 (qq群全天候解答疑问,优盘寄送或工作人员上门拷贝等绿色上传通道)。
3. GSA立足于中国,极大方便了中国科学家的数据递交,同时遵循INSDC联盟数据标准,立心于服务全球,为全世界的科研领域共享贡献数据。

简单来说就是:有底气、被认可、更快、更方便

五、如何上传测序原始数据至GSA?(重点!!附详细步骤!!)
1. 准备要上传的数据
原始数据,fastq、bam文件,网站只接受gzip和bzip2压缩格式
在这里插入图片描述

2. 计算MD5码
MD5码主要是用来校验递交的数据在网络传输过程中是否损坏或丢包,它是由数字和英文字母组成的长度为 32 的定长字符串,一般测序公司返回的数据中会有。我们也可以通过以下方式进行计算MD5码:

Linux 用户使用 $ md5sum 命令计算;(输入md5sum 加文件名)
代码如下(示例):

在这里插入图片描述

Mac 用户使用$ md5 命令计算;
Windows 用户使用第三方工具进行计算,例如 winmd5free。
3.进入NGDC主页,登入账户
首先进入我们NGDC主页:(https://ngdc.cncb.ac.cn/)–点击登入;

在这里插入图片描述如果是第一次使用要注册账户:
在这里插入图片描述在这里插入图片描述

4. 填写数据信息
账户注册完以后,就可以登入账户按照以下原则进行数据信息录入。简单来说就是填写你要上传数据的信息,分为以下三步①先创建BioProject ②创建BioSample ③创建GSA(先创建experiment 再创建run)。只填写*的必填部分即可。可能大家不太理解BioProject, BioSample,experiment, run。举个例子,假如我有以四个时间点Ck,12h,24h,48h,每个时间点三个生物学重复,取样测的转录组数据。那么我就有12个样本BioSample,12个experiment,12个run,或者一个experiment对应多个run也可以。

❸ 世界上主要的基因库有哪几个

uropean Molecular Biology Laboratory (EMBL) ,欧洲分子生物学实验室.
Cambridge,UK.
· GenBank ,美国国家生物技术信息中心 (NCBI)所维护的供公众自由读取的、带注释的DNA序列的总数据库.
· DNA Databank of Japan (DDBJ) ,日本核酸数据库.
主要就这三个,当然还有一些其他的专门的基因数据库.

❹ 中国DNA数据库建立了吗

中国DNA数据库建立了。

中国国内的,在侦破案件上使用DNA技术,是很早就有的,但是真正的DNA系统是最近10年间才发展起来的。中国国内的DNA数据库系统,有数据量大,增长量快,比对复杂等特点。

目前主流公安机关使用的DNA系统 ,是由北京海鑫高科技有限公司和辽宁省公安厅刑事科学研究所共同研究的项目。该项目也列入了国家”十五“科技课题和公安厅的”金盾计划“。

针对近几年拐卖儿童案件逐年上升的趋势,公安部又组织开发建立了全国公安机关“打拐”DNA数据库,使许多被拐卖的孩子和家里亲人得以团聚。

(4)国家基因数据库扩展阅读:

中国DNA资料库始建于新世纪初,国家九五科技攻关项目法庭科学DNA数据库建设关键技术、国产化DNA试剂的研制等项目相继执行,标志着我国DNA数据库建设启动,而在公安机关打拐专项行动中建立全国打拐DNA数据库并实现异地查询,则标志着我国DNA数据库进入建设实施阶段。

至2010年12月,全国公安机关共建立了312个DNA实验室,其中283个与国家库联网,DNA数据总量达700余万份,居世界第2位,日均破案150余起。

参考资料来源:网络-DNA数据库

参考资料来源:网络-DNA资料库

❺ 国家基因库的简介


深圳国家基因库着眼于为本国生命科学研究和生物产业发展提供基础性和公益性服务平台,储存和管理本国特有的遗传资源、生物信息和基因数据,是维系一个民族生存与发展的命脉,具有国家水平、服务国家战略需求的公益性创新科研和产业基础项目。
国家基因库集生物资源样本库、生物信息数据库和生物资源信息网络为一体,通过建立高水平的生物资源样本库、高效的生物信息数据处理、存储与管理系统以及覆盖广泛的联盟网络,有效保护、合理开发和利用我国生物资源及基因数据资源,充分调动、发挥及整合各地区、各单位的资源和技术优势, 积极开展广泛交流与合作,搭建信息资源研究开发的基础性支撑平台,提高我国生命科学研究水平和国际影响力, 促进我国生物产业发展。

❻ 国家基因库生命大数据平台是什么能提供哪些服务

生物信息数据库主要建设储存基因信息的高性能数据管理系统,构建个人健康管理和支持生命科学研究的可运营大数据平台和全社会广泛参与的大数据系统。目前已构建四十多个数据库,总访问量达1.18亿;千万级民生项目数据库,涵盖HPV、地贫、耳聋等等;科学杂志GigaScience在综合性期刊类别中排名全球第六。基于大数据共享理念开发的生物大数据时代的搜索引擎国家基因库信息库统一检索系统,已经整合了超过8千个物种/品种、27个人种、1千万个基因、5亿条序列数据、3亿条变异信息和关联1Pb原始数据量,实现总可检索条目数8.8亿条。 生物信息数据库致力于存储人类健康及生物多样性相关的数字化遗传资源,构建生物数据库及数据分析平台,实现数据存储、分析的贯穿,为后续科研及产业提供大数据源头保障,支撑国家精准医学和精准农业发展,促进大数据分析、构建健康云服务,引领互联网+健康的合作,成为大数据生物学时代研究生物生长发育、衰老、死亡以及向产业化推广的有利工具。