當前位置:首頁 » 數據倉庫 » 國家基因資料庫
擴展閱讀
webinf下怎麼引入js 2023-08-31 21:54:13
堡壘機怎麼打開web 2023-08-31 21:54:11

國家基因資料庫

發布時間: 2023-05-11 19:36:43

❶ 國家基因庫:人類存儲健康信息的「生命銀行」

深圳市大鵬新區大鵬街道下沙片區禾塘仔,這里依山傍海,環境優美,背山面海的幾棟白色的建築並不起眼,但令人難以置信的是,龐大的數據如同螺旋一般,每天從這里源源不斷地湧出。這些白色的梯田造型的建築就是中國首個獲批籌建的國家基因庫,也是目前全球最大的綜合性基因庫。

國家基因庫項目一期佔地面積4.75萬平方米,擁有基因測序房、超級計算房以及冷凍資源房,相較於其龐大的建棗圓蠢築規模,它豐富的內容更是令人瞠目結舌:國家基因庫目前已存儲多種生物資源樣本1000萬份,可檢索生物信息條目數已經超過一個億,我國更是計劃把它打造成為中國的諾亞方舟,建立一個巨大的生物活體庫,保護和保存世界約三十萬種植物、百萬種動物、近千萬種微生物活體資源。如此大手筆、高規格的項目究竟什麼來頭?建立國家基因庫的意義何在?下面就讓我們一起走進關於國家基因庫的專業解讀。

「科普中國」是中國科協攜同社會各方利用信息化手段開展科學傳播的科學權威品牌。

本文由科普中國融合創作出品,轉載請註明出處。

❷ 國家基因組科學數據中心怎麼用

sisichen �
關注
國家基因組科學數據中心(NGDC)---組學原始數據如何上傳GSA 原創
2022-04-25 14:44:31

sisichen �

碼齡4年

關注
文章目錄
前言
一、什麼是NGDC?
二、NGDC的發展歷程
三、什麼是GSA?
四、為什麼選擇上傳數據到GSA?
五、如何上傳測序原始數據至GSA?(重點!!附詳細步驟!!)
1. 准備要上傳的數據
2. 計算MD5碼
3.進入NGDC主頁,登入賬戶
4. 填寫數據信息
第一步:建立Bioproject。
第二步:建立BioSample。
第三步:創建GSA。
進入GSA資料庫
新建GSA
填寫信息
下載表格文件
5. 數據上傳:
(1). 通過FTP軟體 上傳(上傳需要流量!!如果小數據可以用)
(2). 通過伺服器上傳(推薦!!):如果實驗室有伺服器的話,推薦伺服器上傳,步驟如下:(伺服器上要先安裝ftp )
(3)郵寄硬碟
6.等待審核
總結
前言
在發表文章之前我們需要將測序的原始數據上傳到一個公共庫,並在文中提供accession number,實現數據的公開共享,這是國際慣例。以前我們上傳數據時只能上傳到美國國立生物技術信息中心(NCBI)、歐洲生物信息學研究所(EBI)、日本核酸資料庫(DDBJ),現在中國科學院北京基因組研究所(國家生物信息中心)國家基因組科學數據中心 (CNCB-NGDC)—中國的 「NCBI」 已經建立並日漸完善。組學原始數據歸檔庫(GSA)是組學原始數據匯交、存儲、管理與共享系統,是國內首個被國際期刊認可的組學數據發布平台。GSA已獲得多個國際期刊認可,並已被國際著名出版商Elsevier收錄為指定的基因數據歸檔庫,其權威性得到國內外100餘家學術雜志的認可。GSA已通過FAIRsharing認證,獲得Wiley出版集團認可,因此我們不用擔心上傳數據到GSA不被期刊認可,也不用再舍近求遠上傳數據到NCBI,作為中國人,我們一定要支持我們NGDC中的資料庫。本文介紹了如何上傳測序原始數據到GSA,附詳細操作步驟。

一、什麼是NGDC?
國家基因組科學數據中心(https://ngdc.cncb.ac.cn/;NGDC)於2019年6月5日經科技部、財政部通知公布,由鮑一明研究員作為學術帶頭人,以中國科學院北京基因組研究所(國家生物信息中心)作為依託單位,聯合中國科學院生物物理研究所和中國科學院上海營養與健康研究所共同建設。中心面向我國人口健康和社會可持續發展的重大戰略需求,建立生命健康組學大數據儲存、整合與挖掘分析研究體系,研發生物多樣性與健康大數據匯交、應用與共享平台,發展大數據系統解析與轉化應用的新技術和新方法,建設支撐我國生命科學發展、國際知名的基因組科學數據中心。

2020年中心開發了8個全新資料庫 (2019nCoVR,Aging Atlas,BrainBase,CGIR,GTDB,LncExpDB,scMethBank和TransCirc),更新和豐富了多個核心資料庫資源 (BioProject,BioSample,GSA,GWH,GVM,GEN和生物多樣性資源等),涉及疾病、衰老、調控和生物多樣性等多個前沿領域,初步形成我國生物數據安全匯交管理和多組學數據平台的國家中心數據資源體系。資料庫建設整體情況以「Database Resources of the National Genomics Data Center, China National Center for Bioinformation in 2021」為題在國際學術期刊《核酸研究》(Nucleic Acids Research)在線發表。

NGDC的主要致力於以下三方面的工作:①圍繞中國人群普惠健康的精準醫學相關組學信息資源,完善建立中國人群基因組遺傳變異圖譜,形成中國人群精準醫學信息庫;②基於高通量測序的海量原始組學數據資源,建立符合國際標準的原始組學數據歸檔庫,形成中國原始組學數據的共享平台;③圍繞國家重要戰略生物資源,建立海量組學數據的整合、挖掘與應用體系,形成綜合性的多組學資料庫系統。

在這里插入圖片描述

常用資源:
生物項目資料庫(BioProject):是收集與共享生物學研究項目信息的資源庫,涵蓋的項目類型包括常規組學研究的基因組、轉錄組、表觀組和宏基因組等,並針對大型項目提供高效、安全、專業化的項目分級管理。
生物樣本資料庫(BioSample):是收集與與共享生物樣品信息的資源庫,提供生物樣品單結構化描述信息遞交和發布,涵蓋的樣品類型包括人、動物、植物、微生物(含環境微生物)、病毒等,提供批量數據上傳和離線數據遞交服務。通常一個BioProjiect對應一個BioSample,如果多個樣本可以批量設置BioSample,也就是一個BioProject對應多個Biosample。
組學原始數據歸檔庫(GSA):植物/動物
組學原始數據歸檔庫 (GSA-Human):人類遺傳資源數據,需要備案
多元數據歸檔庫(OMIX):如要共享的代謝組數據,影像,Excel等,上述兩個庫不能存放的,上傳到這個庫。
生物工具庫(Biocode):存放代碼,部分替代github
基因組序列資料庫(GWH):類似於NCBI 的genebank, 基因組拼接組裝完的數據可以上傳到這里
基因組變異庫(GVM):等同於NCBI DDSNP(19年後只接受人的),包括人動物作物的單核苷酸多態性變異,call SNP 變異的數據上傳這里
生物資料庫目錄(DBCommons ):根據引用(平均年引用)評價一些資料庫,如DVide和KEGG等
基因表達資料庫(GEN):等同於國際上的GO
甲基化資料庫(MethBank)

二、NGDC的發展歷程
生物信息的數據要海量整合後才會有價值,割裂的資料庫只完成了「存」卻難以走向「使用」, 為了解決我國基因組數據存管用難、數據流失嚴重、核心基因組科學信息資源先「出口」再「進口」的問題,國家基因組科學數據中心應運而生。從2016年到2022年,短短6年的時間,NGDC已經發展成為全球主要的生物數據中心。
在這里插入圖片描述
在這里插入圖片描述

三、什麼是GSA?
組學原始數據歸檔庫(Genome Sequence Archive,簡稱GSA)是組學原始數據匯交、存儲、管理與共享系統,是國內首個被國際期刊認可的組學數據發布平台, 主要匯交實驗信息(Experiment Metadata)、測序反應信息(Run Metadata)信息以及歸檔測序文件數據(Sequence Data file)。

GSA的系統建設遵循了國際核酸序列共享聯盟(InternationalNucleotide Sequence Database Collaboration,INSDC)的相關標准,並作為INSDC的補充,旨在減輕國際相關資料庫數據存貯及數據傳輸的壓力;立足中國,服務全球。由於中國國際網路出口帶寬的瓶頸問題,數據傳輸效率低下。以中國科學院北京基因組研究所的150Mbs出口帶寬為例,向NCBI資料庫遞交1TB的數據需要花費2周以上的時間。GSA的建立可以讓國人享受更快的傳輸速度,更貼心的服務!

截至2022年4月,GSA已為國內外多個單位提供免費數據存儲服務,累計用戶遞交項目信息超過572,259個,用戶提交的測序數據量超過13.23PB。
在這里插入圖片描述

四、為什麼選擇上傳數據到GSA?
上傳GSA資料庫的幾大理由:

1.符合數據戰略安全要求;
2. 是國內首個被國際期刊認可的組學數據發布平台;
3.界面可切換為中文,契合大家閱讀習慣;
4.人性化設置,例如公布日期可隨時修改,數據未公開前可一鍵分享給審稿人查看,數據上傳信息修改、增添方便等等;
5.多途徑協助數據上傳, 上傳數據快 (qq群全天候解答疑問,優盤寄送或工作人員上門拷貝等綠色上傳通道)。
3. GSA立足於中國,極大方便了中國科學家的數據遞交,同時遵循INSDC聯盟數據標准,立心於服務全球,為全世界的科研領域共享貢獻數據。

簡單來說就是:有底氣、被認可、更快、更方便

五、如何上傳測序原始數據至GSA?(重點!!附詳細步驟!!)
1. 准備要上傳的數據
原始數據,fastq、bam文件,網站只接受gzip和bzip2壓縮格式
在這里插入圖片描述

2. 計算MD5碼
MD5碼主要是用來校驗遞交的數據在網路傳輸過程中是否損壞或丟包,它是由數字和英文字母組成的長度為 32 的定長字元串,一般測序公司返回的數據中會有。我們也可以通過以下方式進行計算MD5碼:

Linux 用戶使用 $ md5sum 命令計算;(輸入md5sum 加文件名)
代碼如下(示例):

在這里插入圖片描述

Mac 用戶使用$ md5 命令計算;
Windows 用戶使用第三方工具進行計算,例如 winmd5free。
3.進入NGDC主頁,登入賬戶
首先進入我們NGDC主頁:(https://ngdc.cncb.ac.cn/)–點擊登入;

在這里插入圖片描述如果是第一次使用要注冊賬戶:
在這里插入圖片描述在這里插入圖片描述

4. 填寫數據信息
賬戶注冊完以後,就可以登入賬戶按照以下原則進行數據信息錄入。簡單來說就是填寫你要上傳數據的信息,分為以下三步①先創建BioProject ②創建BioSample ③創建GSA(先創建experiment 再創建run)。只填寫*的必填部分即可。可能大家不太理解BioProject, BioSample,experiment, run。舉個例子,假如我有以四個時間點Ck,12h,24h,48h,每個時間點三個生物學重復,取樣測的轉錄組數據。那麼我就有12個樣本BioSample,12個experiment,12個run,或者一個experiment對應多個run也可以。

❸ 世界上主要的基因庫有哪幾個

uropean Molecular Biology Laboratory (EMBL) ,歐洲分子生物學實驗室.
Cambridge,UK.
· GenBank ,美國國家生物技術信息中心 (NCBI)所維護的供公眾自由讀取的、帶注釋的DNA序列的總資料庫.
· DNA Databank of Japan (DDBJ) ,日本核酸資料庫.
主要就這三個,當然還有一些其他的專門的基因資料庫.

❹ 中國DNA資料庫建立了嗎

中國DNA資料庫建立了。

中國國內的,在偵破案件上使用DNA技術,是很早就有的,但是真正的DNA系統是最近10年間才發展起來的。中國國內的DNA資料庫系統,有數據量大,增長量快,比對復雜等特點。

目前主流公安機關使用的DNA系統 ,是由北京海鑫高科技有限公司和遼寧省公安廳刑事科學研究所共同研究的項目。該項目也列入了國家」十五「科技課題和公安廳的」金盾計劃「。

針對近幾年拐賣兒童案件逐年上升的趨勢,公安部又組織開發建立了全國公安機關「打拐」DNA資料庫,使許多被拐賣的孩子和家裡親人得以團聚。

(4)國家基因資料庫擴展閱讀:

中國DNA資料庫始建於新世紀初,國家九五科技攻關項目法庭科學DNA資料庫建設關鍵技術、國產化DNA試劑的研製等項目相繼執行,標志著我國DNA資料庫建設啟動,而在公安機關打拐專項行動中建立全國打拐DNA資料庫並實現異地查詢,則標志著我國DNA資料庫進入建設實施階段。

至2010年12月,全國公安機關共建立了312個DNA實驗室,其中283個與國家庫聯網,DNA數據總量達700餘萬份,居世界第2位,日均破案150餘起。

參考資料來源:網路-DNA資料庫

參考資料來源:網路-DNA資料庫

❺ 國家基因庫的簡介


深圳國家基因庫著眼於為本國生命科學研究和生物產業發展提供基礎性和公益性服務平台,儲存和管理本國特有的遺傳資源、生物信息和基因數據,是維系一個民族生存與發展的命脈,具有國家水平、服務國家戰略需求的公益性創新科研和產業基礎項目。
國家基因庫集生物資源樣本庫、生物信息資料庫和生物資源信息網路為一體,通過建立高水平的生物資源樣本庫、高效的生物信息數據處理、存儲與管理系統以及覆蓋廣泛的聯盟網路,有效保護、合理開發和利用我國生物資源及基因數據資源,充分調動、發揮及整合各地區、各單位的資源和技術優勢, 積極開展廣泛交流與合作,搭建信息資源研究開發的基礎性支撐平台,提高我國生命科學研究水平和國際影響力, 促進我國生物產業發展。

❻ 國家基因庫生命大數據平台是什麼能提供哪些服務

生物信息資料庫主要建設儲存基因信息的高性能數據管理系統,構建個人健康管理和支持生命科學研究的可運營大數據平台和全社會廣泛參與的大數據系統。目前已構建四十多個資料庫,總訪問量達1.18億;千萬級民生項目資料庫,涵蓋HPV、地貧、耳聾等等;科學雜志GigaScience在綜合性期刊類別中排名全球第六。基於大數據共享理念開發的生物大數據時代的搜索引擎國家基因庫信息庫統一檢索系統,已經整合了超過8千個物種/品種、27個人種、1千萬個基因、5億條序列數據、3億條變異信息和關聯1Pb原始數據量,實現總可檢索條目數8.8億條。 生物信息資料庫致力於存儲人類健康及生物多樣性相關的數字化遺傳資源,構建生物資料庫及數據分析平台,實現數據存儲、分析的貫穿,為後續科研及產業提供大數據源頭保障,支撐國家精準醫學和精準農業發展,促進大數據分析、構建健康雲服務,引領互聯網+健康的合作,成為大數據生物學時代研究生物生長發育、衰老、死亡以及向產業化推廣的有利工具。