pacbio测序数据上传到sRA数据库。. 1.注册并登入NCBI帐号,然后进入NCBI submission portal,选择SRA数据库
2. 在数据库介绍页面选择文件上传方式
3. 安装完之后,返回数据库介绍页面。点选创建新任务
‘贰’ 如何将测序数据上传到NCBI的SRA数据库
一般上传数据到NCBI SRA的过程需要6步:
1、Create a BioProject for this research
2、Create a BioSample submission for your biological sample(s)
3、Gather Sequence Data Files
4、Enter Metadata on SRA website
a、Create SRA submission
b、Create Experiment(s) and link to BioProject and BioSample
c、Create Run(s)
5、Transfer Data files to SRA
6、Update Submission with PubMed links, Release Date, or Metadata Changes
需要注意的一点是,上传的过程中很多地方一旦保存或提交就不可以修改,尤其是各处的Alias。但是,可以联系NCBI的工作人员修改内容。NCBI的工作效率是很高的,一般不超过48小时,就可以得到确认,并拿到登录号。
‘叁’ 转录组入门(3):了解fastq测序数据
来源还是 生信技能树 。
高通量测序产生的海量数据都是经过压缩再上传的,目前比sra更好的压缩方式也正在研究中。首先把sra文件转换成人可读的fastq格式:
--gzip 输出gz压缩格式 --split-3 对PE reads使用
首先看下fastq数据前几行了解数据大概内容。因为是PE测序,所以两个文件都分别看下 zcat SRR3589959_1.fastq.gz |head -n 8 和 zcat SRR3589959_2.fastq.gz |head -n 8 。
可以看出fastq数据每条read的记录由4行组成:
其中
HWUSI-EAS100R 设备名
6 flowcell lane(流动槽泳道号)
73 tile number within the flowcell lane(泳道区块号)
941 ‘x’-coordinate of the cluster within the tile(区块上x坐标)
1973 ‘y’-coordinate of the cluster within the tile(区块上y坐标)
#0 index number for a multiplexed sample (0 for no indexing)
/1 the member of a pair, /1 or /2 (paired-end or mate-pair reads only)
ls *.fastq.gz |xargs fastqc -t 6
结果如下:
其中绿色表示检测通过,黄色为警告,红色为未通过。如图Per base sequence content因为前15个碱基分布异常而未通过检测,可能存在序列污染或者接头没去干净。一般mRNA测序数据的碱基分布都是比较均一平行的,而 ChIP-seq、RIP-seq则可能出现比较大的碱基分布偏好 。
根据最后三项检测可以进一步分析是否有污染或者没去干净的接头序列存在。
‘肆’ 微生物多样性研究中测序原始数据及其处理方式
1. 原始数据的解释及相关概念
原始数据的概念:
A.测序仪完成测序后生产的测序文件,经过单样品拆分后,获得的单样品测序文件。
B.或者 测序仪测序完成后,由测序仪直接拆分的单样品测序文件。
——我们常常称之为“Rawdata”
原始数据展示(illumina测序平台、Fastq格式文件):
Fastq格式文件:基于文本的,保存生物序列(通常是核酸序列)和其质量信息的标准格式,其实质是一种数据存储格式,其序列以及质量都是使用一个ASCII字符标示,最初有Sanger公司开发,目的是将Fasta序列和质量数据放在一起,目前已经成为高通量测序结果的事实标准。
对于Fastq格式文件内容相关解释:
1)第一行以“@”开头,由文件识别标志和读段名(ID)组成;
2)第二行为碱基序列;
3)第三行以“+” 开头,也是由文件识别标志和读段名(ID)组成,其ID可以省略,但“+”不能省略;
4)第四行是第二行中的序列内容每个碱基所对应的测序质量值。
2. 数据质控
高通量测序下机的原始数据raw reads中存在一些低质量数据、接头以及barcode序列等,为消除其对后续分析准确性产生的影响,在数据下机以后对原始数据进行质控处理就成了至关重要的环节。
数据质控的概念:
将原始数据通过系列步骤(或同时进行)质量控制筛选的过程。
质控筛选后的数据,我们常常称之为“Cleandata”,也称之为“可以进行后续分析的序列”。
因各服务商提供的质控标准会略有不同,但大体包含(但不限于)如下几方面:
1)通过index提取序列,并作测序质量控制,质量达不到设置要求的去除,将序列与样本对应;
2)通过overlap完成拼接,去除index序列,overlap长度和错配要达到设置的要求,拼接不上的舍弃;
3)拼接完成且长度达不到设定要求的舍弃。
?问题:Cleandata(可用于分析的序列)跟最终参与分析的序列数量相等吗?
我们将在OTU聚类环节给出答案。
3. 原始数据的重要性
原始数据一切数据分析的根本。分析过程文件、结果文件可以丢失,原始数据在,分析结果可以重现;原始数据一旦丢失,分析结果则不可重现;
原始数据应及时索取或保存。
获取方式
1)服务商提供:硬盘、网盘、U盘、邮件等数据载体。
2)自留保存:硬盘、上传NCBI等数据载体。
文章发表时,均需要上传NCBI,并获得唯一项目号。
‘伍’ 会了GEO数据下载,来看看怎么上传吧
先注册NCBI账号,在: https://www.ncbi.nlm.nih.gov/
然后注册GEO账号,在: https://www.ncbi.nlm.nih.gov/geo/submitter/
GEO可上传的数据类型种类主要集中在芯片和高通量数据,比如芯片数据的四大主流:Affymetrix、Agilent、Nimblegen、Illumina,高通量的RNA-Seq、ChIP-Seq、ATAC-Seq等。另外还有RT-PCR、SAGE数据可以上传
重点需要提交三部分:
基因表达、基因调控、表观以及其他功能基因组学研究,例如
与文章相关的内容
与样本信息相关的内容
样本的实验操作以及建库流程,简单描述即可
数据处理描述,比如基因组版本是什么、怎么比对、怎么过滤、怎么找peaks、怎么定量
数据处理后的文件名称
如果使用了双端测序数据,需要列出各自的名称
首先会看到自己的上传目录,一会将用到
然后设置FileZilla:
此时会发生报错,忽略它
修改Remote site,然后回车连接:
最后就可以将本地数据上传到GEO指定位置了
Tips:为了避免FileZilla上传过程出现中断,可以 设置断点续传
并且会提示再核实一遍信息,没有问题的话5个工作日内就会进行审核
‘陆’ 高通量测序技术简介
高通量测序技术 (High-throughput sequencing)又称“下一代”测序技术("Next-generation" sequencing technology),或大规模平行测序(Massively parallel sequencing,MPS)。区别于传统Sanger(双脱氧法)测序,能够一次并行对大量核酸分子进行平行序列测定的技术,通常一次测序反应能产出不低于100Mb的测序数据。
高通量测序技术主要还是基于二代测序来进行检测的。二代测序的目的是检测核苷酸(ATCG)序列。
测序技术推进科学研究的发展。高通量测序技术已经开始覆盖越来越多的科研领域,随着第二代测序技术的迅猛发展,科学界也开始越来越多地应用第二代测序技术来解决生物学问题。比如在基因组水平上对还没有参考序列的物种进行从头测序(de novo sequencing),获得该物种的参考序列,为后续研究和 分子育种 奠定基础;对有参考序列的物种,进行 全基因组重测序 (resequencing),在全基因组水平上扫描并检测突变位点,发现个体差异的分子基础。在 转录组 水平上进行全 转录组测序 (whole transcriptome resequencing),从而开展可变剪接、 编码序列 单核苷酸多态性 (cSNP)等研究;或者进行 小分子RNA 测序(small RNA sequencing),通过分离特定大小的RNA分子进行测序,从而发现新的microRNA分子。在转录组水平上,与 染色质免疫共沉淀 (ChIP)和 甲基化 DNA 免疫共沉淀 (MeDIP)技术相结合,从而检测出与特定转录因子结合的DNA区域和基因组上的甲基化位点。
参考链接:
高通量测序_网络 (.com)
‘柒’ 国家基因组科学数据中心怎么用
sisichen �
关注
国家基因组科学数据中心(NGDC)---组学原始数据如何上传GSA 原创
2022-04-25 14:44:31
sisichen �
码龄4年
关注
文章目录
前言
一、什么是NGDC?
二、NGDC的发展历程
三、什么是GSA?
四、为什么选择上传数据到GSA?
五、如何上传测序原始数据至GSA?(重点!!附详细步骤!!)
1. 准备要上传的数据
2. 计算MD5码
3.进入NGDC主页,登入账户
4. 填写数据信息
第一步:建立Bioproject。
第二步:建立BioSample。
第三步:创建GSA。
进入GSA数据库
新建GSA
填写信息
下载表格文件
5. 数据上传:
(1). 通过FTP软件 上传(上传需要流量!!如果小数据可以用)
(2). 通过服务器上传(推荐!!):如果实验室有服务器的话,推荐服务器上传,步骤如下:(服务器上要先安装ftp )
(3)邮寄硬盘
6.等待审核
总结
前言
在发表文章之前我们需要将测序的原始数据上传到一个公共库,并在文中提供accession number,实现数据的公开共享,这是国际惯例。以前我们上传数据时只能上传到美国国立生物技术信息中心(NCBI)、欧洲生物信息学研究所(EBI)、日本核酸数据库(DDBJ),现在中国科学院北京基因组研究所(国家生物信息中心)国家基因组科学数据中心 (CNCB-NGDC)—中国的 “NCBI” 已经建立并日渐完善。组学原始数据归档库(GSA)是组学原始数据汇交、存储、管理与共享系统,是国内首个被国际期刊认可的组学数据发布平台。GSA已获得多个国际期刊认可,并已被国际着名出版商Elsevier收录为指定的基因数据归档库,其权威性得到国内外100余家学术杂志的认可。GSA已通过FAIRsharing认证,获得Wiley出版集团认可,因此我们不用担心上传数据到GSA不被期刊认可,也不用再舍近求远上传数据到NCBI,作为中国人,我们一定要支持我们NGDC中的数据库。本文介绍了如何上传测序原始数据到GSA,附详细操作步骤。
一、什么是NGDC?
国家基因组科学数据中心(https://ngdc.cncb.ac.cn/;NGDC)于2019年6月5日经科技部、财政部通知公布,由鲍一明研究员作为学术带头人,以中国科学院北京基因组研究所(国家生物信息中心)作为依托单位,联合中国科学院生物物理研究所和中国科学院上海营养与健康研究所共同建设。中心面向我国人口健康和社会可持续发展的重大战略需求,建立生命健康组学大数据储存、整合与挖掘分析研究体系,研发生物多样性与健康大数据汇交、应用与共享平台,发展大数据系统解析与转化应用的新技术和新方法,建设支撑我国生命科学发展、国际知名的基因组科学数据中心。
2020年中心开发了8个全新数据库 (2019nCoVR,Aging Atlas,BrainBase,CGIR,GTDB,LncExpDB,scMethBank和TransCirc),更新和丰富了多个核心数据库资源 (BioProject,BioSample,GSA,GWH,GVM,GEN和生物多样性资源等),涉及疾病、衰老、调控和生物多样性等多个前沿领域,初步形成我国生物数据安全汇交管理和多组学数据平台的国家中心数据资源体系。数据库建设整体情况以“Database Resources of the National Genomics Data Center, China National Center for Bioinformation in 2021”为题在国际学术期刊《核酸研究》(Nucleic Acids Research)在线发表。
NGDC的主要致力于以下三方面的工作:①围绕中国人群普惠健康的精准医学相关组学信息资源,完善建立中国人群基因组遗传变异图谱,形成中国人群精准医学信息库;②基于高通量测序的海量原始组学数据资源,建立符合国际标准的原始组学数据归档库,形成中国原始组学数据的共享平台;③围绕国家重要战略生物资源,建立海量组学数据的整合、挖掘与应用体系,形成综合性的多组学数据库系统。
在这里插入图片描述
常用资源:
生物项目数据库(BioProject):是收集与共享生物学研究项目信息的资源库,涵盖的项目类型包括常规组学研究的基因组、转录组、表观组和宏基因组等,并针对大型项目提供高效、安全、专业化的项目分级管理。
生物样本数据库(BioSample):是收集与与共享生物样品信息的资源库,提供生物样品单结构化描述信息递交和发布,涵盖的样品类型包括人、动物、植物、微生物(含环境微生物)、病毒等,提供批量数据上传和离线数据递交服务。通常一个BioProjiect对应一个BioSample,如果多个样本可以批量设置BioSample,也就是一个BioProject对应多个Biosample。
组学原始数据归档库(GSA):植物/动物
组学原始数据归档库 (GSA-Human):人类遗传资源数据,需要备案
多元数据归档库(OMIX):如要共享的代谢组数据,影像,Excel等,上述两个库不能存放的,上传到这个库。
生物工具库(Biocode):存放代码,部分替代github
基因组序列数据库(GWH):类似于NCBI 的genebank, 基因组拼接组装完的数据可以上传到这里
基因组变异库(GVM):等同于NCBI DDSNP(19年后只接受人的),包括人动物作物的单核苷酸多态性变异,call SNP 变异的数据上传这里
生物数据库目录(DBCommons ):根据引用(平均年引用)评价一些数据库,如DVide和KEGG等
基因表达数据库(GEN):等同于国际上的GO
甲基化数据库(MethBank)
二、NGDC的发展历程
生物信息的数据要海量整合后才会有价值,割裂的数据库只完成了“存”却难以走向“使用”, 为了解决我国基因组数据存管用难、数据流失严重、核心基因组科学信息资源先“出口”再“进口”的问题,国家基因组科学数据中心应运而生。从2016年到2022年,短短6年的时间,NGDC已经发展成为全球主要的生物数据中心。
在这里插入图片描述
在这里插入图片描述
三、什么是GSA?
组学原始数据归档库(Genome Sequence Archive,简称GSA)是组学原始数据汇交、存储、管理与共享系统,是国内首个被国际期刊认可的组学数据发布平台, 主要汇交实验信息(Experiment Metadata)、测序反应信息(Run Metadata)信息以及归档测序文件数据(Sequence Data file)。
GSA的系统建设遵循了国际核酸序列共享联盟(InternationalNucleotide Sequence Database Collaboration,INSDC)的相关标准,并作为INSDC的补充,旨在减轻国际相关数据库数据存贮及数据传输的压力;立足中国,服务全球。由于中国国际网络出口带宽的瓶颈问题,数据传输效率低下。以中国科学院北京基因组研究所的150Mbs出口带宽为例,向NCBI数据库递交1TB的数据需要花费2周以上的时间。GSA的建立可以让国人享受更快的传输速度,更贴心的服务!
截至2022年4月,GSA已为国内外多个单位提供免费数据存储服务,累计用户递交项目信息超过572,259个,用户提交的测序数据量超过13.23PB。
在这里插入图片描述
四、为什么选择上传数据到GSA?
上传GSA数据库的几大理由:
1.符合数据战略安全要求;
2. 是国内首个被国际期刊认可的组学数据发布平台;
3.界面可切换为中文,契合大家阅读习惯;
4.人性化设置,例如公布日期可随时修改,数据未公开前可一键分享给审稿人查看,数据上传信息修改、增添方便等等;
5.多途径协助数据上传, 上传数据快 (qq群全天候解答疑问,优盘寄送或工作人员上门拷贝等绿色上传通道)。
3. GSA立足于中国,极大方便了中国科学家的数据递交,同时遵循INSDC联盟数据标准,立心于服务全球,为全世界的科研领域共享贡献数据。
简单来说就是:有底气、被认可、更快、更方便
五、如何上传测序原始数据至GSA?(重点!!附详细步骤!!)
1. 准备要上传的数据
原始数据,fastq、bam文件,网站只接受gzip和bzip2压缩格式
在这里插入图片描述
2. 计算MD5码
MD5码主要是用来校验递交的数据在网络传输过程中是否损坏或丢包,它是由数字和英文字母组成的长度为 32 的定长字符串,一般测序公司返回的数据中会有。我们也可以通过以下方式进行计算MD5码:
Linux 用户使用 $ md5sum 命令计算;(输入md5sum 加文件名)
代码如下(示例):
在这里插入图片描述
Mac 用户使用$ md5 命令计算;
Windows 用户使用第三方工具进行计算,例如 winmd5free。
3.进入NGDC主页,登入账户
首先进入我们NGDC主页:(https://ngdc.cncb.ac.cn/)–点击登入;
在这里插入图片描述如果是第一次使用要注册账户:
在这里插入图片描述在这里插入图片描述
4. 填写数据信息
账户注册完以后,就可以登入账户按照以下原则进行数据信息录入。简单来说就是填写你要上传数据的信息,分为以下三步①先创建BioProject ②创建BioSample ③创建GSA(先创建experiment 再创建run)。只填写*的必填部分即可。可能大家不太理解BioProject, BioSample,experiment, run。举个例子,假如我有以四个时间点Ck,12h,24h,48h,每个时间点三个生物学重复,取样测的转录组数据。那么我就有12个样本BioSample,12个experiment,12个run,或者一个experiment对应多个run也可以。
‘捌’ 高通量测序数据提交fasta文件可以吗
高通量测序数据提交fasta文件可以
这个要看你测序的目的,一般情况下高通量测序分析报告基本把数据进行了一定的挖掘,这个也基本满足了客户的研究要求。当然如果你有特别的需求的话可能还需要进行一定的筛选。
比如说一般测序公司的分析报告会把所有的差异基因拉出来,然后给个P和FDR值,你可以根据自己的要求,来选择不同fold和P作为阈值来进行筛选。
术业有专攻,如果是业余人员进行学习的话肯定是比较难的,但是如果有人带的话就比较好学,另外高通量测序数据组装现在有比较专业的一个专业,就是生物信息学,是具有生物基础和计算机基础的人员,专门处理生物数据的
‘玖’ 高通量测序的结果怎么提交
教程的初稿已经整理好,相关软件也在附件中,请多多指教。希望能对虫友们有帮助。如果有问题,随时反馈,更新!
数据库改版了,现在提交数据的步骤和这个教程有些出入,但是整体思路还是一样的!
总有人说有木马,我当时上传的时候没有木马!我特意自己下载下来看了下,好像真的有。介意的就不要下载了。建议大家把数据传到欧洲那个数据库,操作很简单。