A. 如何在geo資料庫找想要的資料庫
1、首先GEO資料庫是個什麼鬼呢?
GEO資料庫全稱GENE EXPRESSION
OMNIBUS,是由美國國立生物技術信息中心NCBI創建並維護的基因表達資料庫。它創建於2000年,收錄了世界各國研究機構提交的高通量基因表達數據,也就是說只要是目前已經發表的論文,論文中涉及到的基因表達檢測的數據都可以通過這個資料庫中找到。
2、那GEO資料庫有哪些檢索入口呢?
最常用的有兩種方式,如果你知道GSE編號可以通過網址http://www.ncbi.nlm.nih.gov/geo直接進入,具體編號介紹文件下載方法見:https://www.omicsclass.com/article/1100
另外一種就是通過NCBI主頁的入口基因搜索下載。通常是不知道GEO編號,通過樣品類型,實驗處理,平台信息等搜索篩選想要的GEO數據:https://www.ncbi.nlm.nih.gov/,進入NCBI主頁,搜索數據選擇GEO DataSets,如果搜索某個基因表達量可選擇GEO Profiles。
B. 資料庫該怎麼學習,純小白
相信很多資料庫入門的新手們在學習資料庫方面都存在困惑,本文列出了一個非常完整的資料庫學習路線,並對資料庫學習過程中的細節進行詳細指導。希望能夠成為大家學習資料庫過程中一份綱領性的教程。
本回答來自:資料庫怎麼學?資料庫學習零基礎入門指導_樹懶學堂
資料庫知識要點學習
新手學習資料庫務必把握的知識要點:
資料庫的安裝下載:了解資料庫的環境變數,文件目錄構造。
資料庫網路伺服器的啟動,登陸與登出。
資料庫常用命令及語法標准。
資料庫基本數據類型與數據表的實際操作。比如,數據表的增刪、單表查尋、多表查詢等。
資料庫運算符和函數,比如,日期函數,時間函數,信息函數,聚合函數,數據加密涵數,自定義函數等。
資料庫存儲過程,存儲過程的調度。
資料庫每個存儲引擎的特性。
資料庫事務管理的定義和應用等。
資料庫管理許可權和用戶管理等。
資料庫學習材料推薦:
1.《Mysql必知必會》
這書講的十分全,從基本要素,到查尋到插入新建表,用戶的管理方法,都是有實際的事例,特別適合沒有基礎的同學們來學習Mysql,總而言之這本書學習的方式 便是:
掌握資料庫的基本概念
按照示例進行練習
2.《SQL必知必會》
純新手必讀,這也是Amazon上最熱銷的SQL書籍的漢化版,寫的很輕快,定義十分清晰。這本書用於學習關系型資料庫也非常好,基本概念比大部頭的教材內容說得清晰得多。
網站推薦:
樹懶學堂_一站式數據知識學習平台
C. geo資料庫的優點
免費且只要是目前已經發表的論文,論文中涉及到的基因表達檢測的數據都可以通過這個資料庫中找到。
GEO資料庫是一個儲存晶元、二代測序以及其他高通量測序數據的一個資料庫。利用這個資料庫,我們可以檢索到其他一些人上傳的一些實驗測序數據。
不涉及任何檢測原理的角度來說的話,所謂的高通量檢測,其實就是一次性檢測很多指標變化的技術。例如我們說的表達譜數據,就是來檢測基因表達水平。比如我們要對一個人來進行高通量檢測的話,就能知道這個人上萬個基因的表達水平了。
由於GEO資料庫和我們之前介紹的gene資料庫 [資料庫推薦]gene:基因相關信息查詢 以及我們常用來搜索文獻的pubmed都是一個機構的。使用這個資料庫,我們需要做的就是就是就是提供檢索式。檢索式可以是簡單的幾個關鍵詞,也可以是制定特殊的檢索式。
D. gis資料庫
就是存儲GIS空間信息的資料庫。
你使用GIS軟體時,例如,用ArcGIS時,你可能會使用文件格式的地圖數據,如shapefile或柵格的數據,但是這些文件數據有一定的局限性,如果海量數據或者數據共享時,需要用到GIS空間資料庫,比如,ArcGIS會用到Access或oracle ,sql server存儲空間數據。
E. 地質-生態環境空間資料庫建庫標准
一、范圍
本標準定義了山東半島城市群地質-生態環境空間資料庫的數據結構框架、數據實體及實體之間的相互關系,定義了成果圖件空間數據的要素集、要素類、要素分類代碼及屬性數據項,可用於山東半島城市群項目數據的採集、存儲、管理、共享及資料庫建設。
二、規范性引用文件
下列標准所包含的條文,通過在本標准中引用而構成為本標準的條文。本標准出版時,所示版本均為有效。所有標准都會被修訂,使用本標準的各方應探討使用下列標准最新版本的可能性。
GB / T 1. 1—2000 標准化工作導則 第 1 部分: 標準的結構和編寫規則
GB / T 13923—92 國土基礎信息數據分類代碼
GB / T 2260—1999 中華人民共和國行政區劃代碼
GB / T 2659 世界各國和地區名稱代碼
GB / T 9649—88 地質礦產術語分類代碼
DZ / T 0160—95 1∶ 200000 地質圖地理底圖編繪規范及圖式
DZ / T 0197—1997 數字化地質圖圖層及屬性文件格式
GB 958—99 區域地質圖圖例 ( 1∶ 50000)
DZ / T 0179—1997 地質圖用色標准及用色原則
DDB 9702 GIS 圖層描述數據內容標准
GB 17108—1997 海洋功能區劃技術導則
中國地質調查局 地質圖空間資料庫建設工作指南 ( 2. 0 版)
中國地質調查局 1∶ 20 萬區域水文地質圖空間資料庫圖層及屬性文件格式工作指南
三、術語和定義
本標准涉及的主要術語如下:
1. 地理信息資料庫 ( geodatabase)
採用標准關系資料庫技術來管理、表現地理信息的空間資料庫。
2. 數據包 ( data package)
邏輯相關數據實體的集合,本標准中將山東半島城市群項目數據整體視作一個數據包。
3. 數據實體 ( data entity)
描述專業領域同一類型數據的數據元素的集合,如地質構造數據實體,概念上等同於UML 的類。數據實體可通過一個或多個相關的數據元素及相關的數據實體定義。
4. 數據集 ( dataset)
邏輯相關數據組成的數據集合,如一幅地圖可視作一個數據集,數據集是一個邏輯上的整體。
5. 數據子集 ( subdataset)
按一定規則劃分的數據集中邏輯相關數據的集合,本標准中的一個數據子集對應一個地圖要素類,數據子集類別對應地圖上的圖層劃分。
6. 空間數據 ( spatial data)
用來表示空間實體的位置、形狀、大小和分布特徵諸方面信息的數據。空間數據不僅具有實體本身的空間位置及形態信息,而且還有實體屬性和空間關系 ( 如拓撲關系)信息。
7. 空間參照系 ( spatial reference)
對地理信息數據的空間范圍和投影的描述。
8. 地圖 ( map)
地理信息的圖形描述,包括地理信息數據和地圖元素,如標題、圖例和比例尺等。本標准中將一幅地圖視作一個數據集進行管理,並通過一組要素集 ( 要素類、關系類、屬性表的集合) 、空間參照系、地圖樣式定義地圖的數據內容及顯示方式。
9. 圖層 ( layer)
地圖上特定區域范圍內按一定規則劃分的相似要素類的集合,如水系、城鎮。圖層為要素類的專題組合及表現,一個圖層定義了它包含地理信息數據的地理位置和顯示方法。
10. 要素 ( feature)
現實世界中的對象在地圖圖層中的表示,如地圖中表示道路的一條線。
……
四、縮略語和符號
1. 縮略語
ARD 圖外整飾要素 ( Elements Around Map)
BMAP 地理底圖 ( Basemap)
BOU 境界、邊界 ( Bourn)
CD 代碼 ( Code)
COL 綜合柱狀圖 ( Colomnar Chart)
DT 日期 ( Date)
ELE 地形高程 ( Elevation)
……
2. UML 類圖符號
山東半島城市群地區地質-生態環境與可持續發展研究
3. ER 圖符號
山東半島城市群地區地質-生態環境與可持續發展研究
五、基於 UML 的 Geodatabase 的空間數據模型
構建地質數據的空間數據模型是建立地質信息資料庫的一項關鍵工作,是資料庫建設的基礎。Geodatabase 數據模型作為 ArcGIS 軟體平台的一種通用數據形式,目前已被國內外眾多地質空間資料庫的建設所採用。數據建模也已經成為地質資料庫建立的一項主要內容。
目前針對地質、水文、礦產、海洋等多個領域的專業 Geodatabase 數據模型都已存在,國內目前應用於區域地質 - 生態環境調查的綜合地質 - 生態環境空間數據模型還比較少見。因此,本項目在分析國內外目前比較通用的各專業數據模型的基礎上,提出了專門面向山東半島城市群地質 - 生態環境空間資料庫建設的 Geodatabase 數據模型。
在 Geodatabase 數據模型中,允許定義要素之間類型的關聯,Geodatabase 對空間數據管理以關系資料庫為基礎,利用商用關系資料庫成熟的數據處理能力對空間數據和非空間數據進行統一管理。Geodatabase 使用面向對象的方法,使得要素可以具有自己的行為和屬性,並且要素類具有繼承性、多態性和封裝性。這樣,以更加適合自然的行為和人的思維方式去組織數據,更精確地模擬真實世界。
1. Geodatabase 數據模型的結構體系
Geodatabase 數據模型作為一種新型的面向對象的數據模型,融入了面向對象的核心技術,如類 ( Class) 、對象 ( Object) 、封裝 ( Encapsulation) 、繼承 ( Inheritance) 和多態( Polymorphism) 等思想和技術。Geodatabase 數據模型的目的就是為了讓用戶能更容易、更自然地表示 GIS 數據特徵和更容易地建立特徵之間的各種關系。Geodatabase 空間資料庫數據模型如表 12 -1 所示。
表 12 -1 Geodatabase 內部結構
續表
2. Geodatabase 資料庫模型的特點
Geodatabase 有兩種,即個人與多用戶 Geodatabase。
1) 個人 Geodatabase 支持內置於 ArcGIS 系統並提供對本地數據的訪問,適用於面向項目的 GIS,在 Microsoft Access 資料庫平台上實現,提供生成和更新 Access 資料庫的服務,可處理小型或適中的 Access 資料庫。但個人 Geodatabase 的存儲容量有不能超過 2GB的限制。
2) 多用戶的 Geodatabase 是通過 ArcSDE ( ARC 空間資料庫引擎) 實現的。ArcSDE可以生成和訪問從小型到大型的 Geodatabase 並提供關系型數據的開放界面。
與標準的關系資料庫相比,Geodatabase 簡化了地理數據建模的工作,因為它包含有用於建模地理信息的通用模型。
此外,Geodatabase 還同時支持兩個視圖,即對象視圖和關系視圖。這樣就綜合了對象視圖和關系視圖兩者的優點。對象視圖在 Geodatabase 中占據主導地位,其目的是提供一個接近於邏輯數據模型的數據模型,因而更接近於現實。關系視圖則用於一些 Geodata-base 數據的常規處理,它表示的是一些簡單地理對象的特徵。
3. 基於 UML 的 Geodatabase 數據模型的設計
( 1) Geodatabase 資料庫設計的方法
在 ArcGIS 中,建立地理資料庫可以有多種方法。藉助 ArcCatalog,可以通過 3 種方式建立新的地理資料庫。
第一種方法是建立一個新的地理資料庫。
第二種方法是移植已經存在的數據到地理資料庫中去。
第三種方式是用 CASE 工具來建立地理資料庫。
( 2) 面向對象和 UML ( 統一建模語言)
面向對象是軟體程序設計中的一種新思想,它能使程序設計更加貼近現實,並且花費更小的精力。面向對象方法學包含了對象 ( object) 、類 ( classification) 、繼承 ( inherit-ance) 、聚集和消息 ( messages) 的概念。
UML ( Unified Modeling Language,統一建模語言) 是一種基於面向對象方法的建模語言,具有創建系統的靜態結構和動態行為等多種結構模型的能力,是一種通用的建模語言。在 Geodatabase 的設計中,主要用到描述系統靜態結構的類圖。類圖的節點表示系統中的類及其屬性和操作。類圖的邊表示類之間的聯系,包括繼承、關聯、依賴、聚合等。
類的表示由 3 個部分方框組成,上面部分給出了類的名稱; 中間部分給出了該類的單個對象的屬性; 下面部分給出了一些可以應用到這些對象的操作。類的表示如圖 12 -5。
圖 12 -5 類的表示
關聯是對類的實例之間聯系的命名,與關聯有關的內容有關聯元數 ( Degree) 、關聯角色 ( Role) 和重復度 ( Multiplicity) 。
UML 中有 3 種類型的類: 抽象類 ( abstract class) 、可創建化類 ( creatable class) 和可實例化類 ( instantiable class) 。
UML 類圖的符號見本節第四部分內容。
( 3) 面向對象的地理數據模型的設計方法
利用 CASE 工具進行 Geodatabase 數據模型設計的步驟具體為:
1) 在 CASE 工具中進行 UML 建模。
2) 將設計好的 UML 模型載入資料庫 ( repositry) 。
3) 利用 GIS 軟體提供的 CASE 介面,根據資料庫中的 UML 模型生成空間資料庫結構。至此,Geodatabase 空間資料庫結構初具雛形。在 GIS 軟體環境中,現在可以將新生成的數據或已有的數據進行格式轉換後載入到設計好的 Geodatabase 空間資料庫中,由空間資料庫統一管理。利用 CASE 工具來建立 Geodatabase 地理資料庫的工作流程見圖12 - 6。
圖 12 -6 利用 CASE 工具來建立 Geodatabase 地理資料庫的工作流程
六、地質 - 生態環境 Geodatabase 數據模型的建立
( 一) 數據模型設計的依據
根據山東半島城市群地質 - 生態環境調查評價研究工作的需要和山東半島城市群地質 - 生態環境 GIS 資料庫系統的整體設計要求,結合各地質 - 生態環境要素的成果圖件和文本報告資料,利用 UML 設計工具 Microsoft Visio 完成了山東半島城市群地質 - 生態環境Geodatabase 數據模型的設計 ( 圖 12 - 7) 。
圖 12 -7 山東半島城市群地質 - 生態環境 Geodatabase 數據模型的設計依據
( 二) 山東半島城市群地質 - 生態環境資料庫的 UML 類圖
1. 數據集管理
山東半島城市群項目數據包中的數據以數據集為單元統一組織管理,數據集管理方式就是將一份文字報告或一幅成果圖件視作邏輯上的整體,用 「數據集編號」唯一標識,通過數據集實體統一管理。同一數據集的不同實體,例如成果圖中的圖層,通過實體中的「數據集編號」元素關聯。
2. 空間數據管理
山東半島城市群項目數據包由文字報告及成果圖件兩大類數據組成,並以成果圖件為主,成果圖件是一空間數據實體,統一存儲在面向對象的地理信息資料庫中,以圖幅為單元進行管理。
3. 數據包總體結構
本標准中山東半島城市群項目數據包總體結構用 UML 模型來體現,山東半島城市群項目數據包由 「成果報告」、「元數據」及 「存檔文件」3 個數據實體 ( UML 類) 組成,通過 「數據集」實體統一組織管理。「成果報告」由它的繼承類 「文字報告」及 「成果圖件」定義,為研究成果數據包的主體數據。「元數據」及 「存檔文件」為數據集的輔助數據,「元數據」存放文字報告或成果圖件的元數據; 「存檔文件」存放文字報告或成果圖件的相關存檔文件,供數據集數據的整體下載與利用。
一個 「數據集」實體對應一個項目的 「文字報告」或一幅 「成果圖件」; 每一個數據集必須有一個而且只能有一個 「元數據」文件; 「存檔文件」是 「數據集」的可選聚合實體。
「成果圖件」是一空間數據實體,由特定的面向對象地理信息資料庫 ( Geodatabase)統一存儲、管理。一幅 「成果圖件」數據內容由一組空間要素集 ( 基礎地理要素集、地質要素集、地球物理要素集、地球化學要素集、輔助要素集) 組成,空間要素集數據類型包括矢量 ( Feature Dataset,簡稱要素集) 、柵格 ( Raster Dataset) 和 TIN ( TIN Dataset)3 種。
4. 數據集編號的編碼規則
數據集編號由資料庫管理方統一編碼,必須保證編號在資料庫中唯一,編號中的英文字母全部大寫。
山東半島城市群項目數據集按 「項目或圖幅—提交單位—提交年份—成果序號」編碼。數據集編號的字元串長度不得超過 22 位,以保證 「數據集編號 + 要素類名」的字元串總長度不超過 30 位。
5. 成果圖件要素類命名規則
要素類名字元串總長度不得超過 8 位。
矢量要素類按 「要素集類型 + 要素類名 + 要素類型」命名,全部用大寫英文字母表示。「要素集類型」用一位代碼表示,如 「L」表示基礎地理要素集。柵格數據集數據以「要素集類型 + 要素類型」命名,要素類型用代碼 RAS 表示,如 「DRSRAS」表示遙感柵格數據。TIN 數據集數據以 「要素集類型 + 要素類型」命名,要素類型用代碼 TIN 表示,如 「LELETIN」表示地面高程 TIN。
6. 成果圖件要素分類編碼規則
要素分類編碼用以標識不同的要素類要素,保證地圖要素存儲、交換、顯示的一致性。
( 1) 分類編碼原則
1) 科學性、系統性;
2) 相對穩定性;
3) 不受地圖比例尺的限制;
4) 完整性和可擴展性;
5) 適用性。
( 2) 分類編碼方法
成果圖件要素類中不同要素的分類編碼採用中華人民共和國國家標准 《國土基礎信息數據分類與代碼》的編碼結構,結構如下:
山東半島城市群地區地質-生態環境與可持續發展研究
大類碼、小類碼、一級代碼和二級代碼分別用數字順序排列。識別位由用戶自行定義,以便於擴充。在本項目中編碼分兩類: ①基礎地理要素編碼; ②地質專業要素編碼( 地質、地球物理、地球化學等) 。
( 三) 山東半島城市群項目數據實體及實體關系
山東半島城市群項目數據實體類及其代碼見表 12 -2,實體類名代碼按實體類的英文名縮略語編碼,本標准中山東半島城市群項目數據實體及實體間關系用 UML 及實體關系圖 ( ERD) 來體現。
表 12 -2 山東半島城市群項目數據實體類及其代碼
1. 數據集實體 ( MGRD_Dataset)
山東半島城市群項目數據包中的 「數據集」實體用來統一組織管理 「文字報告」、「成果圖件」、「元數據」及 「存檔文件」數據實體,「數據集」實體中的數據項包含數據集的歸屬項目、提交日期、提交單位、主題類別及地理范圍等可用於數據集檢索的信息。一個 「數據集」實體對應一個項目的 「文字報告」或一幅 「成果圖件」,「數據集」實體與 「元數據」實體間為一一對應關系,與 「存檔文件」實體間為一對多的對應關系。「數據集」實體的數據內容及其存儲表通過 「數據子集」實體分類定義,主鍵 [數據集編號]可用於同一數據集中不同 「數據子集」的關聯,也可用於數據集對應的 「元數據」及「存檔文件」的關聯。
2. 成果報告數據實體 ( MGRD SumTmaryReport)
研究成果報告數據實體包括項目的最終綜合文字報告及相應的成果圖件。
( 1) 文字報告數據實體 ( SR_WordReport)
文字報告數據實體包括 「文字報告」及圖像格式的 「報告附圖」數據實體,文字報告及附圖均以二進制大對象存儲。數據實體之間通過 [數據集編號] 關聯。
( 2) 成果圖件數據實體 ( SR_hemeMapSet)
「成果圖件」數據實體是一空間數據實體,主要以矢量圖形格式存儲在地理信息資料庫中,其中也包括柵格數據及 TIN 數據用於數據的空間分析。
1) 要素集: 「成果圖件」 數據實體以圖幅為數據集單元進行管理; 圖幅內容以分屬不同空間要素集 ( 基礎地理要素集、地質要素集、地球物理要素集、地球化學要素集、輔助要素集) 的要素類組合,同一個要素集內的要素類享有同一空間參照系,相互具有拓撲關系。
2) 要素類: 一個要素類的存儲單元為關系資料庫中的一個數據表,要素類圖元類型有點、線、面、注記 4 種,一個要素類只能包含一種圖元類型。本標准中基礎地理要素集、地質要素集、地球物理要素集、地球化學要素類、輔助要素集的要素類用 UML 類圖體現。
3) 圖層: 圖層為要素類的專題組合及表現,不同圖層的組合即構成了可視化 「成果圖件」。本項目通過對數據來源的分析,提出並建立了適合山東半島城市群地區地質 - 生態環境調查與評價特點的空間資料庫數據圖層。考慮到空間數據的應用和相互轉換,每一圖層均應建立相應的內部屬性表,屬性表必須包含一些基本欄位內容,根據具體任務的不同,需靈活擴充內部屬性表欄位內容。 「成果圖件」數據實體的圖層劃分及其代碼見表 12 -3。
4) 要素類屬性: 要素類的要素特徵由屬性表定義,屬性表每一行對應一個要素,每一列包含要素的一個特徵信息。
表 12 -3 成果圖件數據實體的圖層劃分及其代碼
5) 要素類要素分類: 同一要素類中不同類型的要素用不同的代碼標識,通過屬性表中的 「編碼」 ( GEO_CODE) 數據項體現,以便地圖中同一要素類要素的分類顯示,並保證地圖要素存儲、交換、顯示的一致性。在本項目中成果圖件的基礎地理要素分類代碼採用中華人民共和國國家標准 《國土基礎信息數據分類與代碼》,並根據需要進行了擴充,地質專業要素分類代碼全部由本標準定義,見表 12 -4 和表 12 -5。
表 12 -4 基礎地理要素分類代碼
表 12 -5 地質專業要素分類代碼
圖12 -8 山東半島城市群項目數據包UML類圖
圖層編碼中,第一位為圖類代碼,L 代表基礎地理類圖層; D 代表基礎地質類圖層;G 代表國土資源圖層; W 代表地殼穩定性圖層; S 代表水資源圖層; H 代表海岸帶圖層;T 代表生態環境圖層; R 代表人類工程活動圖層; F 代表分析評價圖層; Y 代表預測與防治圖層; Z 代表輔助圖層。第二位為比例尺代碼,圖件均採用 1∶ 50 萬比例尺,代碼為 B。第三位到第五位為圖名的漢語拼音首字母縮寫。第六位為圖層數字編號。
( 四) 山東半島城市群項目 UML 類圖
1. 山東半島城市群項目數據包 UML 類圖
UML 類圖見圖 12 - 8。
2. 成果圖件要素集 UML 類圖
1) 基礎地理要素集實體 UML 類圖 ( FD_Geography) 。本項目將基礎地理要素分為地理網格、居民地、境界、交通網、地貌地形、水系、海洋海岸帶、行政區劃、柵格數據等 9個抽象要素類,建立了 「各市基本情況」對象類,與表明各地區域的 「城市群」類相連接,將山東半島城市群8 個地級市的地理位置數據與地區的基本資料數據有機地聯系起來。
2) 地質要素集實體 UML 類圖 ( FD_Geology) 。
3) 國土資源要素集實體 UML 類圖 ( FD_LandResource) 。
4) 水資源要素集實體 UML 類圖 ( FD_WaterResource) 。
5) 生態環境要素集實體 UML 類圖 ( FD_Environment) 。
6) 輔助要素集實體 UML 類圖 ( FD_Ancillary) 。
3. 山東半島城市群項目數據實體關系圖
1) 數據集實體 ER 圖 ( MGRD_DataSet) 。
2) 研究成果報告數據實體 ER 圖 ( MGRD_SummaryReport) ( 圖 12 - 9) 。
圖 12 -9 研究成果報告數據實體 ER 圖 ( MGRD_SummaryReport)
七、山東半島城市群項目數據包數據字典
( 一) 數據集實體 ( MGRD_DataSet)
山東半島城市群地區地質-生態環境與可持續發展研究
( 二) 研究成果報告數據實體 ( MGRD_SummaryReport)
1. 文字報告數據實體 ( SR_WordReport)
山東半島城市群地區地質-生態環境與可持續發展研究
2. 成果圖件數據實體 ( SR_ThemeMapSet)
( 1) 基礎地理要素集實體 ( FD_Geography)
山東半島城市群地區地質-生態環境與可持續發展研究
( 2) 地質要素集實體 ( FD_Geology)
山東半島城市群地區地質-生態環境與可持續發展研究
( 3) 水資源要素集實體 ( FD_HydroResource)
山東半島城市群地區地質-生態環境與可持續發展研究
F. geo資料庫數據如何標准化
標准化的方法就是Counts值:
對給定的基因組參考區域,計算比對上的read數,又稱為raw count(RC)。
aw count作為原始的read計數矩陣是一個絕對值,而絕對值的特點是基因長度、測序深度不同不可以比較。所以我們要進行標准化把count矩陣轉變為相對值,去除基因長度、測序深度的影響,我們採用分析的。
標准化的三種方法得出的三種值:
RPM (Reads per million mapped reads):RPM方法:10^6標准化了測序深度的影響,但沒有考慮轉錄本的長度的影響。
RPKM/FPKM方法:
103標准化了基因長度的影響,106標准化了測序深度的影響。TCGA的數據分析多採用這種結果。
TPM (Transcript per million):TPM的計算方法也同RPKM/FPKM類似,TPM可以看作是RPKM/FPKM值的百分比。
具體判斷方法:
表達量是否需要重新標准化。
可以通過boxplot函數觀察一下樣本表達豐度值的分布是否整齊進行判斷。
是否需要log2:根據數據值的大小。
如果表達豐度的數值在50以內,通常是經過log2轉化的。如果數字在幾百幾千,則是未經轉化的。