當前位置:首頁 » 文件傳輸 » 高通量測序數據上傳
擴展閱讀
webinf下怎麼引入js 2023-08-31 21:54:13
堡壘機怎麼打開web 2023-08-31 21:54:11

高通量測序數據上傳

發布時間: 2023-02-17 01:31:45

『壹』 pacbio測序數據上傳到什麼資料庫

pacbio測序數據上傳到sRA資料庫。. 1.注冊並登入NCBI帳號,然後進入NCBI submission portal,選擇SRA資料庫
2. 在資料庫介紹頁面選擇文件上傳方式
3. 安裝完之後,返回資料庫介紹頁面。點選創建新任務

『貳』 如何將測序數據上傳到NCBI的SRA資料庫

一般上傳數據到NCBI SRA的過程需要6步:
1、Create a BioProject for this research
2、Create a BioSample submission for your biological sample(s)
3、Gather Sequence Data Files
4、Enter Metadata on SRA website
a、Create SRA submission
b、Create Experiment(s) and link to BioProject and BioSample
c、Create Run(s)
5、Transfer Data files to SRA
6、Update Submission with PubMed links, Release Date, or Metadata Changes
需要注意的一點是,上傳的過程中很多地方一旦保存或提交就不可以修改,尤其是各處的Alias。但是,可以聯系NCBI的工作人員修改內容。NCBI的工作效率是很高的,一般不超過48小時,就可以得到確認,並拿到登錄號。

『叄』 轉錄組入門(3):了解fastq測序數據

來源還是 生信技能樹 。

高通量測序產生的海量數據都是經過壓縮再上傳的,目前比sra更好的壓縮方式也正在研究中。首先把sra文件轉換成人可讀的fastq格式:

--gzip 輸出gz壓縮格式 --split-3 對PE reads使用

首先看下fastq數據前幾行了解數據大概內容。因為是PE測序,所以兩個文件都分別看下 zcat SRR3589959_1.fastq.gz |head -n 8 和 zcat SRR3589959_2.fastq.gz |head -n 8 。

可以看出fastq數據每條read的記錄由4行組成:

其中

HWUSI-EAS100R 設備名

6 flowcell lane(流動槽泳道號)

73 tile number within the flowcell lane(泳道區塊號)

941 『x』-coordinate of the cluster within the tile(區塊上x坐標)

1973 『y』-coordinate of the cluster within the tile(區塊上y坐標)

#0 index number for a multiplexed sample (0 for no indexing)

/1 the member of a pair, /1 or /2 (paired-end or mate-pair reads only)

ls *.fastq.gz |xargs fastqc -t 6

結果如下:

其中綠色表示檢測通過,黃色為警告,紅色為未通過。如圖Per base sequence content因為前15個鹼基分布異常而未通過檢測,可能存在序列污染或者接頭沒去干凈。一般mRNA測序數據的鹼基分布都是比較均一平行的,而 ChIP-seq、RIP-seq則可能出現比較大的鹼基分布偏好
根據最後三項檢測可以進一步分析是否有污染或者沒去干凈的接頭序列存在。

『肆』 微生物多樣性研究中測序原始數據及其處理方式

1. 原始數據的解釋及相關概念

原始數據的概念:

A.測序儀完成測序後生產的測序文件,經過單樣品拆分後,獲得的單樣品測序文件。

B.或者  測序儀測序完成後,由測序儀直接拆分的單樣品測序文件。

——我們常常稱之為「Rawdata」

原始數據展示(illumina測序平台、Fastq格式文件):

Fastq格式文件:基於文本的,保存生物序列(通常是核酸序列)和其質量信息的標准格式,其實質是一種數據存儲格式,其序列以及質量都是使用一個ASCII字元標示,最初有Sanger公司開發,目的是將Fasta序列和質量數據放在一起,目前已經成為高通量測序結果的事實標准。

對於Fastq格式文件內容相關解釋:

1)第一行以「@」開頭,由文件識別標志和讀段名(ID)組成;

2)第二行為鹼基序列;

3)第三行以「+」 開頭,也是由文件識別標志和讀段名(ID)組成,其ID可以省略,但「+」不能省略;

4)第四行是第二行中的序列內容每個鹼基所對應的測序質量值。

2.  數據質控

高通量測序下機的原始數據raw reads中存在一些低質量數據、接頭以及barcode序列等,為消除其對後續分析准確性產生的影響,在數據下機以後對原始數據進行質控處理就成了至關重要的環節。

數據質控的概念:

將原始數據通過系列步驟(或同時進行)質量控制篩選的過程。

質控篩選後的數據,我們常常稱之為「Cleandata」,也稱之為「可以進行後續分析的序列」。

因各服務商提供的質控標准會略有不同,但大體包含(但不限於)如下幾方面:

  1)通過index提取序列,並作測序質量控制,質量達不到設置要求的去除,將序列與樣本對應;

  2)通過overlap完成拼接,去除index序列,overlap長度和錯配要達到設置的要求,拼接不上的舍棄;

  3)拼接完成且長度達不到設定要求的舍棄。

?問題:Cleandata(可用於分析的序列)跟最終參與分析的序列數量相等嗎?

   我們將在OTU聚類環節給出答案。

3.  原始數據的重要性

原始數據一切數據分析的根本。分析過程文件、結果文件可以丟失,原始數據在,分析結果可以重現;原始數據一旦丟失,分析結果則不可重現; 

原始數據應及時索取或保存。 

獲取方式

    1)服務商提供:硬碟、網盤、U盤、郵件等數據載體。

    2)自留保存:硬碟、上傳NCBI等數據載體。

文章發表時,均需要上傳NCBI,並獲得唯一項目號。

『伍』 會了GEO數據下載,來看看怎麼上傳吧

先注冊NCBI賬號,在: https://www.ncbi.nlm.nih.gov/

然後注冊GEO賬號,在: https://www.ncbi.nlm.nih.gov/geo/submitter/

GEO可上傳的數據類型種類主要集中在晶元和高通量數據,比如晶元數據的四大主流:Affymetrix、Agilent、Nimblegen、Illumina,高通量的RNA-Seq、ChIP-Seq、ATAC-Seq等。另外還有RT-PCR、SAGE數據可以上傳

重點需要提交三部分:

基因表達、基因調控、表觀以及其他功能基因組學研究,例如

與文章相關的內容

與樣本信息相關的內容

樣本的實驗操作以及建庫流程,簡單描述即可

數據處理描述,比如基因組版本是什麼、怎麼比對、怎麼過濾、怎麼找peaks、怎麼定量

數據處理後的文件名稱

如果使用了雙端測序數據,需要列出各自的名稱

首先會看到自己的上傳目錄,一會將用到

然後設置FileZilla:

此時會發生報錯,忽略它

修改Remote site,然後回車連接:

最後就可以將本地數據上傳到GEO指定位置了

Tips:為了避免FileZilla上傳過程出現中斷,可以 設置斷點續傳

並且會提示再核實一遍信息,沒有問題的話5個工作日內就會進行審核

『陸』 高通量測序技術簡介

高通量測序技術 (High-throughput sequencing)又稱「下一代」測序技術("Next-generation" sequencing technology),或大規模平行測序(Massively parallel sequencing,MPS)。區別於傳統Sanger(雙脫氧法)測序,能夠一次並行對大量核酸分子進行平行序列測定的技術,通常一次測序反應能產出不低於100Mb的測序數據。

高通量測序技術主要還是基於二代測序來進行檢測的。二代測序的目的是檢測核苷酸(ATCG)序列。

測序技術推進科學研究的發展。高通量測序技術已經開始覆蓋越來越多的科研領域,隨著第二代測序技術的迅猛發展,科學界也開始越來越多地應用第二代測序技術來解決生物學問題。比如在基因組水平上對還沒有參考序列的物種進行從頭測序(de novo sequencing),獲得該物種的參考序列,為後續研究和 分子育種 奠定基礎;對有參考序列的物種,進行 全基因組重測序 (resequencing),在全基因組水平上掃描並檢測突變位點,發現個體差異的分子基礎。在 轉錄組 水平上進行全 轉錄組測序 (whole transcriptome resequencing),從而開展可變剪接、 編碼序列 單核苷酸多態性 (cSNP)等研究;或者進行 小分子RNA 測序(small RNA sequencing),通過分離特定大小的RNA分子進行測序,從而發現新的microRNA分子。在轉錄組水平上,與 染色質免疫共沉澱 (ChIP)和 甲基化 DNA 免疫共沉澱 (MeDIP)技術相結合,從而檢測出與特定轉錄因子結合的DNA區域和基因組上的甲基化位點。

參考鏈接:

高通量測序_網路 (.com)

『柒』 國家基因組科學數據中心怎麼用

sisichen �
關注
國家基因組科學數據中心(NGDC)---組學原始數據如何上傳GSA 原創
2022-04-25 14:44:31

sisichen �

碼齡4年

關注
文章目錄
前言
一、什麼是NGDC?
二、NGDC的發展歷程
三、什麼是GSA?
四、為什麼選擇上傳數據到GSA?
五、如何上傳測序原始數據至GSA?(重點!!附詳細步驟!!)
1. 准備要上傳的數據
2. 計算MD5碼
3.進入NGDC主頁,登入賬戶
4. 填寫數據信息
第一步:建立Bioproject。
第二步:建立BioSample。
第三步:創建GSA。
進入GSA資料庫
新建GSA
填寫信息
下載表格文件
5. 數據上傳:
(1). 通過FTP軟體 上傳(上傳需要流量!!如果小數據可以用)
(2). 通過伺服器上傳(推薦!!):如果實驗室有伺服器的話,推薦伺服器上傳,步驟如下:(伺服器上要先安裝ftp )
(3)郵寄硬碟
6.等待審核
總結
前言
在發表文章之前我們需要將測序的原始數據上傳到一個公共庫,並在文中提供accession number,實現數據的公開共享,這是國際慣例。以前我們上傳數據時只能上傳到美國國立生物技術信息中心(NCBI)、歐洲生物信息學研究所(EBI)、日本核酸資料庫(DDBJ),現在中國科學院北京基因組研究所(國家生物信息中心)國家基因組科學數據中心 (CNCB-NGDC)—中國的 「NCBI」 已經建立並日漸完善。組學原始數據歸檔庫(GSA)是組學原始數據匯交、存儲、管理與共享系統,是國內首個被國際期刊認可的組學數據發布平台。GSA已獲得多個國際期刊認可,並已被國際著名出版商Elsevier收錄為指定的基因數據歸檔庫,其權威性得到國內外100餘家學術雜志的認可。GSA已通過FAIRsharing認證,獲得Wiley出版集團認可,因此我們不用擔心上傳數據到GSA不被期刊認可,也不用再舍近求遠上傳數據到NCBI,作為中國人,我們一定要支持我們NGDC中的資料庫。本文介紹了如何上傳測序原始數據到GSA,附詳細操作步驟。

一、什麼是NGDC?
國家基因組科學數據中心(https://ngdc.cncb.ac.cn/;NGDC)於2019年6月5日經科技部、財政部通知公布,由鮑一明研究員作為學術帶頭人,以中國科學院北京基因組研究所(國家生物信息中心)作為依託單位,聯合中國科學院生物物理研究所和中國科學院上海營養與健康研究所共同建設。中心面向我國人口健康和社會可持續發展的重大戰略需求,建立生命健康組學大數據儲存、整合與挖掘分析研究體系,研發生物多樣性與健康大數據匯交、應用與共享平台,發展大數據系統解析與轉化應用的新技術和新方法,建設支撐我國生命科學發展、國際知名的基因組科學數據中心。

2020年中心開發了8個全新資料庫 (2019nCoVR,Aging Atlas,BrainBase,CGIR,GTDB,LncExpDB,scMethBank和TransCirc),更新和豐富了多個核心資料庫資源 (BioProject,BioSample,GSA,GWH,GVM,GEN和生物多樣性資源等),涉及疾病、衰老、調控和生物多樣性等多個前沿領域,初步形成我國生物數據安全匯交管理和多組學數據平台的國家中心數據資源體系。資料庫建設整體情況以「Database Resources of the National Genomics Data Center, China National Center for Bioinformation in 2021」為題在國際學術期刊《核酸研究》(Nucleic Acids Research)在線發表。

NGDC的主要致力於以下三方面的工作:①圍繞中國人群普惠健康的精準醫學相關組學信息資源,完善建立中國人群基因組遺傳變異圖譜,形成中國人群精準醫學信息庫;②基於高通量測序的海量原始組學數據資源,建立符合國際標準的原始組學數據歸檔庫,形成中國原始組學數據的共享平台;③圍繞國家重要戰略生物資源,建立海量組學數據的整合、挖掘與應用體系,形成綜合性的多組學資料庫系統。

在這里插入圖片描述

常用資源:
生物項目資料庫(BioProject):是收集與共享生物學研究項目信息的資源庫,涵蓋的項目類型包括常規組學研究的基因組、轉錄組、表觀組和宏基因組等,並針對大型項目提供高效、安全、專業化的項目分級管理。
生物樣本資料庫(BioSample):是收集與與共享生物樣品信息的資源庫,提供生物樣品單結構化描述信息遞交和發布,涵蓋的樣品類型包括人、動物、植物、微生物(含環境微生物)、病毒等,提供批量數據上傳和離線數據遞交服務。通常一個BioProjiect對應一個BioSample,如果多個樣本可以批量設置BioSample,也就是一個BioProject對應多個Biosample。
組學原始數據歸檔庫(GSA):植物/動物
組學原始數據歸檔庫 (GSA-Human):人類遺傳資源數據,需要備案
多元數據歸檔庫(OMIX):如要共享的代謝組數據,影像,Excel等,上述兩個庫不能存放的,上傳到這個庫。
生物工具庫(Biocode):存放代碼,部分替代github
基因組序列資料庫(GWH):類似於NCBI 的genebank, 基因組拼接組裝完的數據可以上傳到這里
基因組變異庫(GVM):等同於NCBI DDSNP(19年後只接受人的),包括人動物作物的單核苷酸多態性變異,call SNP 變異的數據上傳這里
生物資料庫目錄(DBCommons ):根據引用(平均年引用)評價一些資料庫,如DVide和KEGG等
基因表達資料庫(GEN):等同於國際上的GO
甲基化資料庫(MethBank)

二、NGDC的發展歷程
生物信息的數據要海量整合後才會有價值,割裂的資料庫只完成了「存」卻難以走向「使用」, 為了解決我國基因組數據存管用難、數據流失嚴重、核心基因組科學信息資源先「出口」再「進口」的問題,國家基因組科學數據中心應運而生。從2016年到2022年,短短6年的時間,NGDC已經發展成為全球主要的生物數據中心。
在這里插入圖片描述
在這里插入圖片描述

三、什麼是GSA?
組學原始數據歸檔庫(Genome Sequence Archive,簡稱GSA)是組學原始數據匯交、存儲、管理與共享系統,是國內首個被國際期刊認可的組學數據發布平台, 主要匯交實驗信息(Experiment Metadata)、測序反應信息(Run Metadata)信息以及歸檔測序文件數據(Sequence Data file)。

GSA的系統建設遵循了國際核酸序列共享聯盟(InternationalNucleotide Sequence Database Collaboration,INSDC)的相關標准,並作為INSDC的補充,旨在減輕國際相關資料庫數據存貯及數據傳輸的壓力;立足中國,服務全球。由於中國國際網路出口帶寬的瓶頸問題,數據傳輸效率低下。以中國科學院北京基因組研究所的150Mbs出口帶寬為例,向NCBI資料庫遞交1TB的數據需要花費2周以上的時間。GSA的建立可以讓國人享受更快的傳輸速度,更貼心的服務!

截至2022年4月,GSA已為國內外多個單位提供免費數據存儲服務,累計用戶遞交項目信息超過572,259個,用戶提交的測序數據量超過13.23PB。
在這里插入圖片描述

四、為什麼選擇上傳數據到GSA?
上傳GSA資料庫的幾大理由:

1.符合數據戰略安全要求;
2. 是國內首個被國際期刊認可的組學數據發布平台;
3.界面可切換為中文,契合大家閱讀習慣;
4.人性化設置,例如公布日期可隨時修改,數據未公開前可一鍵分享給審稿人查看,數據上傳信息修改、增添方便等等;
5.多途徑協助數據上傳, 上傳數據快 (qq群全天候解答疑問,優盤寄送或工作人員上門拷貝等綠色上傳通道)。
3. GSA立足於中國,極大方便了中國科學家的數據遞交,同時遵循INSDC聯盟數據標准,立心於服務全球,為全世界的科研領域共享貢獻數據。

簡單來說就是:有底氣、被認可、更快、更方便

五、如何上傳測序原始數據至GSA?(重點!!附詳細步驟!!)
1. 准備要上傳的數據
原始數據,fastq、bam文件,網站只接受gzip和bzip2壓縮格式
在這里插入圖片描述

2. 計算MD5碼
MD5碼主要是用來校驗遞交的數據在網路傳輸過程中是否損壞或丟包,它是由數字和英文字母組成的長度為 32 的定長字元串,一般測序公司返回的數據中會有。我們也可以通過以下方式進行計算MD5碼:

Linux 用戶使用 $ md5sum 命令計算;(輸入md5sum 加文件名)
代碼如下(示例):

在這里插入圖片描述

Mac 用戶使用$ md5 命令計算;
Windows 用戶使用第三方工具進行計算,例如 winmd5free。
3.進入NGDC主頁,登入賬戶
首先進入我們NGDC主頁:(https://ngdc.cncb.ac.cn/)–點擊登入;

在這里插入圖片描述如果是第一次使用要注冊賬戶:
在這里插入圖片描述在這里插入圖片描述

4. 填寫數據信息
賬戶注冊完以後,就可以登入賬戶按照以下原則進行數據信息錄入。簡單來說就是填寫你要上傳數據的信息,分為以下三步①先創建BioProject ②創建BioSample ③創建GSA(先創建experiment 再創建run)。只填寫*的必填部分即可。可能大家不太理解BioProject, BioSample,experiment, run。舉個例子,假如我有以四個時間點Ck,12h,24h,48h,每個時間點三個生物學重復,取樣測的轉錄組數據。那麼我就有12個樣本BioSample,12個experiment,12個run,或者一個experiment對應多個run也可以。

『捌』 高通量測序數據提交fasta文件可以嗎

高通量測序數據提交fasta文件可以
這個要看你測序的目的,一般情況下高通量測序分析報告基本把數據進行了一定的挖掘,這個也基本滿足了客戶的研究要求。當然如果你有特別的需求的話可能還需要進行一定的篩選。
比如說一般測序公司的分析報告會把所有的差異基因拉出來,然後給個P和FDR值,你可以根據自己的要求,來選擇不同fold和P作為閾值來進行篩選。
術業有專攻,如果是業餘人員進行學習的話肯定是比較難的,但是如果有人帶的話就比較好學,另外高通量測序數據組裝現在有比較專業的一個專業,就是生物信息學,是具有生物基礎和計算機基礎的人員,專門處理生物數據的

『玖』 高通量測序的結果怎麼提交

教程的初稿已經整理好,相關軟體也在附件中,請多多指教。希望能對蟲友們有幫助。如果有問題,隨時反饋,更新!
資料庫改版了,現在提交數據的步驟和這個教程有些出入,但是整體思路還是一樣的!
總有人說有木馬,我當時上傳的時候沒有木馬!我特意自己下載下來看了下,好像真的有。介意的就不要下載了。建議大家把數據傳到歐洲那個資料庫,操作很簡單。