實時數倉存儲技術_基於flink sql構建實時數據倉庫

⑴ 數據倉庫與數據挖掘技術—特點及元數據

數據倉庫具有以下特點

數據倉庫中的數據是面向主題組織的

在較高層次上對分析對象的數據做一個完整的、一致的描述，能有效地刻畫出分析對象所涉及的各項數據及數據間的聯系。主題通常在一個較高層次上將數據歸類的標准，每個主題對應一個宏觀分析領域。數據倉庫中應重新組織數據，完成業務數據向主題數據的轉換。主題的抽取則應根據分析的要求進行確定，根據所需要的信息，分不同類別、不同角度等主題把數據整理之後存儲起來

數據倉庫的數據是集成的

事務處理系統中的操作型數據在進入數據倉庫之前，必須經過統一和綜合，演變為分析性數據。需要完成的工作包括：處理欄位的同名異義，異義同名，單位不統一，長度不一致等問題，然後對源數據進行綜合和計算，生成面向主題分析的高層、綜合的數據

數據倉庫的數據是穩定的

數據倉庫中存放的是供分析決策用的歷史數據，而不是聯機事務處理的當前數據。涉及的數據操作主要是數據查詢，一般不進行數據的增刪改操作

數據倉庫的數據是隨時間不斷變化的

數據倉庫系統需要不斷獲取聯機事務處理系統不同時刻的數據，經集成後追加到數據倉庫中

數據倉庫中的數據分為四個級別、早期細節級，當前細節級，輕度綜合級，高度綜合級

首先進入當前細節級，並根據具體需要進一步的綜合，從而進入輕度綜合級，乃至高度綜合級。老化的數據進入早期細節級，數據倉庫中存在著搭念不同的綜合級別，一般則雹稱之為粒度。粒度越大，表示細節程度越低，綜合程度越高

元數據是「關於數據的數據」，是新一輪迭代開發和數據倉庫維護的主要技術手冊。如同數據倉庫的導航器，快速高效的定位信息，實現數據檢索和挖掘

1、技術元數孫枝帆據

存儲關於數據倉庫系統技術細節的數據，是用於開發和管理數據倉庫使用的數據。它主要包括數據倉庫結構的描述、業務系統、數據倉庫和數據集市的體系結構及模式以及匯總用的演算法和操作環境到數據倉庫環境的映射

2、業務元數據

業務元數據從業務角度表述了數據倉庫中的數據

數據倉庫的建立過程一般有兩種方法，「自頂而下」和「自底而上」。

自頂而下：先建立一個企業級數據倉庫，然後再在其基礎上建立部門級數據集市。

自底向上：優先建立一些數據集市，最後再把它們匯集成一個企業級數據倉庫。

⑵ 數據產品工作指北（3）-實時數倉分層

按照業務實際，數倉區分為ODS、DW、SCD、RPT層，DIM維度層會貫穿所有層使用，為方便後台查詢會放到RPT層。

ODS層存放的是從業務源系統同步過來的數據，表名增加【ODS_業務簡寫_】前綴，表結構和數據結構保持與源系統一致。ODS表的分區策略是表數據量小於2萬以下的常用表建成維度表，表數據量大於2萬、或者非常用的表建成分區表。

DW存放的是經過初步加工的，標準的，帶有時間特徵的明細數據，表名為范圍【DW_業雹核務簡寫_業務名稱_(RT/NRT)】，以後綴RT(實時）和NRT（非實時）作為實時數據和非實時數據（刷新頻率以日計）的區分。

DW表的欄位必須是規范的，命名和類型都要參照下面的命名規范，不能無腦照搬源表欄位。

DW數據的處理原則是去空（對空值補NULL_ID或0值）、標准化（轉換非標數據類型和非標準的表示方法）、預關聯（關聯出明細粒度上有用的維度和其他邏輯信息）。

DW表的擴展原則是支持欄位（column）上的擴展而不是行（row）上的擴展。意味著設計DW模型的時候就要確定業務的數據范圍，在列的設計上盡量採取最小可用的原則，保持模型的簡潔。

DW表的更新策略常用的有兩種：時間增量更新和主鍵更新。時間增量在非實時數倉使用得源簡掘比較多，一般採用的是DELETE-->INSERT-->EXCEPTION(ROLLBACK)的方式運行，保持數據執行的冪等性。數據批量產生批量插入更新，邏輯簡單，但缺點是可能會涉及到大量未更新數據的處理。主鍵更新是檢測到某行數據發生變化之後，才執行的更新行為，涉及到的更新數據量會比較小。優點是數據更新迅速，處理量小，缺點是必須保持數據有唯一性主鍵，而且在有多源更新、數據物理刪除時處理邏輯會變得復雜。

DW表不能直接作為最終報表的查詢表。DW表的建設目的不是直接為了業務主題，奔著業務主體的目標去開發DW表，結果是只會開發出一張自己能用的中間表。

如無必要，勿增實體（奧卡姆剃刀原則）。DW表盡量通用，不要為了某些特殊的剔除邏輯又衍生出新的同質DW表，正確的做法是常用邏輯可以增加剔除標識欄位，不常用邏輯則直接寫在下游業務邏輯中剔除。要考慮在橫向列上擴展，而不是新增模型粗暴解咐猜決。

SCD表命名規范為【SCD_業務簡寫_業務名稱】

SCD緩慢變化維的概念旨在記錄數據的變化情況，我們採取的是拉鏈表的方式存儲。原則上可以針對數據的時刻變化進行記錄，但一般只是針對統計周期的最小粒度做記錄。

SCD常用的用途其實是針對維表的特定欄位發生變化進行記錄，只是我們為了達到減少變化數據的存儲量，在一些事實數據上也使用了這一技術。

SCD表的欄位最好不要出現NULL值，否則對比的時候可能會出錯。

RPT是面向報表層的，包括報表查詢用到的匯總表（某些查詢維度較少時可以用）、明細表。RPT表的命名規范是（RPT_業務簡寫_業務名稱_(DAY/MON/WEEK/QTR/YEAR），其後綴表示表中數據的最小主時間粒度。

⑶ 數據倉庫在技術上的工作過程是

數據的抽取、存儲和管理、數據的表現、數據倉庫設計。數據倉庫，是為企業所有級別的決策制定過程，提供所悶做亂胡扒有類型數據支持的戰略集合。數據倉庫在技術上的工作過程是數據的抽取、存儲和管理、數據的表螞檔現、數據倉庫設計。

⑷ 實時數倉數據量一般多大

數據彎飢量一般每天百萬首歲到千萬級。
從數據量而言，流量和特徵數倉都是海量數據，每天十億級以上，而業務數倉的數據量一般每天百萬到千萬級。從數據更新頻率而言，流量數據極少更新。
數據倉庫是伴隨著企業信息化發展起來的，在企業信息化的過埋芹返程中，隨著信息化工具的升級和新工具的應用，數據量變的越來越大，數據格式越來越多，決策要求越來越苛刻，數據倉庫技術也在不停的發展。

⑸ 數據倉庫與數據挖掘技術—數據光滑

雜訊是被測量的變數的隨機誤差或方差。

數據光滑技術：

1、分箱：通過考察數據的近鄰（即周圍的值）來光滑有序數據的值。升轎睜有序值分布到一些「桶」或箱中，由於分箱方法考察近鄰的值，因此進行局部光滑。一般來說，寬度越大光滑效果越大。

2、回歸：可以用一個函數（如回歸函吵歲數）擬合數據來光滑數據。線性回歸涉及找出擬合兩個屬性的「最佳」線，使得一個屬性可以用來預測另一個。多元線性回歸是線性回歸的擴展，其中涉及的屬性有多個，並且數據擬合到一個多維曲面。

3、聚類：可以通過聚類檢測離群點，將類似的值組織成群或簇。直觀地，落在簇集合之外的值視為離群點。

4、人工檢測

數據集成合並多個數據源中的數據，存放在一致的數據存儲。在數據集成時，首先需要考慮的是模式集成和對象匹配問題。冗餘是在數據集成，是另一個需要考慮的重要問題。

有些冗餘可以被相關分析檢測到。相關並不意味因果關系，也就是說如果A和B是相關的並不意味，A導致B或B導致A。

數據變換把數據轉換成適於挖掘的形式。

1、光滑：去掉數據中的雜訊。這種技術包括分箱、回歸和聚類等

按箱平均值平滑分箱：箱中每個值都按箱中的平均值替換

按箱中值替換：箱中的每一個值，按箱中的中值替換

按箱邊界平滑：箱中的最大值和最小值被視為邊箱邊界。箱中的每一個值被最近帆喊的邊界替換

2、聚集。隊數據進行匯總或聚集

3、數據泛化：使用概念分層，用高層概念替換底層或「原始」數據。例如分類的屬性，如街道，可以泛化為較高層的概念。如城市或國家

4、規范化：把數據歸一化、指數化或標准化，把不同的屬性進行比例縮放，使它們的值落在大致相同的范圍內。常用的有三種：最小—最大規范化、z- score規范化和按小數定標規范化

5、屬性構造：由給定的屬性添加新的屬性

數據貴約技術可以用來得到數據集的歸約表示，它小的多，但仍接近保持原數據的完整性。對歸約後的數據集挖掘更有效。並產生幾乎相同的分析結果

數據立方體存儲多維聚集信息，每個單元存放一個聚集值，對應於多維空間的一個數據點，每個屬性可能存在概念分層，允許多個抽象層進行數據分析

數據立方體為在線分析處理的上鑽、下鑽等操作提供了可以快速訪問的匯總數據

數據立方體聚集的基礎是概念分層

⑹ 基於flink sql構建實時數據倉庫

根據目前大數據這一塊的發展，已經不局限於離線的分析，挖掘數據潛在的價值，數據的時效性最近幾年變得剛需，實時處理的框架有storm，spark-streaming，flink等。想要做到實時數據這個方案可行，需要考慮以下幾點：1、狀態機制 2、精確一次語義 3、高吞吐量 4、可彈性伸縮的應用 5、容錯機制，剛好這幾點，flink都完美的實現了，並且支持flink sql高級API，減少了開發成本，可用實現快速迭代，易維護等優點。

離線數倉的架構圖：

實時數倉架構圖:

目前是將實時維度表和DM層數據存於hbase當中，實時公共層都存於kafka當中，並且以寫滾動日誌的方式寫入HDFS（主要是用於校驗數據）。其實在這里可以做的工作還有很多，kafka集群，flink集群，hbase集群相互獨立，這對整個實時數據倉庫的穩定性帶來一定的挑戰。

一個數據倉庫想要成體系，成資產，離不開數據域的劃分。所以參考著離線的數據倉庫，想著在實時數倉做出這方面的探索，理論上來講，離線可以實現的，實時也是可以實現的。並且目前已經取得了成效，目前劃分的數據域跟離線大致相同，有流量域，交易域，營銷域等等。當然這裡面涉及到維表，多事務事實表，累計快照表，周期性快照表的設計，開發，到落地這里就不詳述了。

維度表也是整個實時數據倉庫不可或缺的部分。從目前整個實時數倉的建設來看，維度表有著數據量大，但是變更少的特點，我們試想過構建全平台的實時商品維度表或者是實時會員維度表，但是這類維度表太過於復雜，所以針對這類維度表下面介紹。還有另外一種就是較為簡單的維度表，這類維度可能對應著業務系統單個mysql表，或者只需要幾個表進行簡單ETL就可以產出的表，這類維表是可以做成實時的。以下有幾個實施的關鍵點：

如下是離線數據同步架構圖：

實時數據的接入其實在底層架構是一樣的，就是從kafka那邊開始不一樣，實時用flink的UDTF進行解析，而離線是定時（目前是小時級）用camus拉到HDFS，然後定時load HDFS的數據到hive表裡面去，這樣來實現離線數據的接入。實時數據的接入是用flink解析kafka的數據，然後在次寫入kafka當中去。

由於目前離線數據已經穩定運行了很久，所以實時接入數據的校驗可以對比離線數據，但是離線數據是小時級的hive數據，實時數據存於kafka當中，直接比較不了，所以做了相關處理，將kafka的數據使用flink寫HDFS滾動日誌的形式寫入HDFS，然後建立hive表小時級定時去load HDFS中的文件，以此來獲取實時數據。

完成以上兩點，剩餘還需要考慮一點，都是小時級的任務，這個時間卡點使用什麼欄位呢?首先要確定一點就是離線和實時任務卡點的時間欄位必須是一致的，不然肯定會出問題。目前離線使用camus從kafka將數據拉到HDFS上，小時級任務，使用nginx_ts這個時間欄位來卡點，這個欄位是上報到nginx伺服器上記錄的時間點。而實時的數據接入是使用flink消費kafka的數據，在以滾動日誌的形式寫入HDFS的，然後在建立hive表load HDFS文件獲取數據，雖然這個hive也是天/小時二級分區，但是離線的表是根據nginx_ts來卡點分區，但是實時的hive表是根據任務啟動去load文件的時間點去區分的分區，這是有區別的，直接篩選分區和離線的數據進行對比，會存在部分差異，應當的做法是篩選范圍分區，然後在篩選nginx_ts的區間，這樣在跟離線做對比才是合理的。

目前實時數據接入層的主要時延是在UDTF函數解析上，實時的UDTF函數是根據上報的日誌格式進行開發的，可以完成日誌的解析功能。

解析流程圖如下：

解析速率圖如下：

該圖還不是在峰值數據量的時候截的，目前以800記錄/second為准，大概一個記錄的解析速率為1.25ms。
目前該任務的flink資源配置核心數為1，假設解析速率為1.25ms一條記錄，那麼峰值只能處理800條/second，如果數據接入速率超過該值就需要增加核心數，保證解析速率。

介紹一下目前離線維度表的情況，就拿商品維度表來說，全線記錄數將近一個億，計算邏輯來自40-50個ods層的數據表，計算邏輯相當復雜，如果實時維度表也參考離線維度表來完成的話，那麼開發成本和維護成本非常大，對於技術來講也是很大的一個挑戰，並且目前也沒有需求要求維度屬性百分百准確。所以目前（偽實時維度表）准備在當天24點產出，當天的維度表給第二天實時公共層使用，即T-1的模式。偽實時維度表的計算邏輯參考離線維度表，但是為了保障在24點之前產出，需要簡化一下離線計算邏輯，並且去除一些不常用的欄位，保障偽實時維度表可以較快產出。

實時維度表的計算流程圖：

目前使用flink作為公司主流的實時計算引擎，使用內存作為狀態後端，並且固定30s的間隔做checkpoint，使用HDFS作為checkpoint的存儲組件。並且checkpoint也是作為任務restart以後恢復狀態的重要依據。熟悉flink的人應該曉得，使用內存作為狀態後端，這個內存是JVM的堆內存，畢竟是有限的東西，使用不得當，OOM是常有的事情，下面就介紹一下針對有限的內存，如果完成常規的計算。

⑺ 數據中台和數據倉庫的區別是什麼

數據中台與數據倉庫的區別還不能簡單概括，它們在數據來源、建模方法、場景應用等方面，區別還是挺大的，大概可歸納為以下四點：

1、數據來源不同

傳統數據倉庫以業務資料庫的結構化數據為主，也就是具備行和列結構數據，比如表格；而數據中台既不是工具又不是存儲，它可以包戚豎含數據倉庫。

2、建模方法不同

數據倉庫往往採用自頂向下的建設模式，需要以明確的業褲掘務分析驅動，延續性不高，而數據中台採用自底向上的方式，能結合業務需求變化不斷迭代升級，離業務側更近。

3、建設目標不同

數據倉庫以輸出某個業務主題BI報表和決策為主，目的性單一，數據中台則主張打通全域數據孤島，消除數據標准和口徑不一致的問題，釋放業務方數據應用價值。

4、數據應用不同

數據倉庫主要針對管理決策等分析類場景，在其他方面則存在局限性，比如數據建模、數據追蹤與探查、深度挖掘等。數據中台通過將數據服務化之後提供給業務系統，在數據應用上不僅限於分析型場景，也適用於交易類場景，比如營銷推薦、風險評估等。

我們再回歸到兩者的官方定義：

數據倉庫：位於多個資料庫上的大容量存儲庫，它的作用在於存儲大量的結構化數據，並能進行頻繁和可重復的分析，幫助企業構建商業智能（BI）。

數據中台：廣義上是包含胡仔核了頂層數據戰略、數據治理體系以及數據管理及運營、數據文化培養和組織架構支撐，是一套持續管理和運營的體系。

⑻ 簡述資料庫數據倉庫和數據挖掘三者之間的關系

先說說數據倉庫和數據挖掘的關系，再說說資料庫與數據倉庫的關系

數據倉庫與數據挖掘的聯系

(1)數據倉庫為數據挖掘提供了更好的、更廣泛的數據源。

(2)數據倉庫為數據挖掘提供了新的支持平台。

(3)數據倉庫為更好地使用數據挖掘這個工具提供了方便。

(4)數據挖掘為數據倉庫提供了更好的決策支持。

(5)數據挖掘對數據倉庫的數據組織提出了更高的要求。

(6)數據挖掘還為數據倉庫提供了廣泛的技術支持。

數據倉庫與數據挖掘的差別

(1)數據倉庫是一種數據存儲和數據組織技術,提供數據源。

(2)數據挖掘是一種數據分析技術,可針對數據倉庫中的數據進行分析。

1、資料庫:是一種邏輯概念，用配歲枝來存放數據的倉庫，通過資料庫軟體來實現。資料庫由很多表組成，表是二維的，一張表裡面有很多欄位。欄位一字排開，對數據就一行一行的寫入表中。資料庫的表，在於能夠用二維表現多維的關系。如：oracle、DB2、MySQL、Sybase、MSSQLServer等。

2、數據倉庫：是資料庫概念的升級。從邏輯上理解，資料庫和數據倉庫沒有區別，都是通過資料庫軟體實現存放數據的地方，只不過從數據量來說，數據倉庫要比資料庫更龐大德多。數據倉庫主要用於數據挖掘和數培敏據分析，輔助領導做決策；

區別主要總結為以下幾點：

1.資料庫只存放在當前值，數據倉庫存放歷史值；

2.資料庫內數據是動態變化的，只要有業務發生，數據就會被更新，而數據倉庫則是靜態的歷史數據，只能定期添加、刷新；

3.資料庫中的數據結構比較復雜，有各種結構以適合業務處理系統的雀早需要，而數據倉庫中的數據結構則相對簡單；

4.資料庫中數據訪問頻率較高，但訪問量較少，而數據倉庫的訪問頻率低但訪問量卻很高；

5.資料庫中數據的目標是面向業務處理人員的，為業務處理人員提供信息處理的支持，而數據倉庫則是面向高層管理人員的，為其提供決策支持；

6.資料庫在訪問數據時要求響應速度快，其響應時間一般在幾秒內，而數據倉庫的響應時間則可長達數幾小時

⑼ 什麼是數據倉庫中的操作數據存儲

ODS是一個面向主題的、集成的、可變的、當前的細節數據集合，用於支持企業對於即時性的、操作性的、集成的全體信息的需求。常常被作為數據倉庫的過渡，也是數據倉庫項目的可選項之一。根據Bill.Inmon的定義，「數據倉庫是面向主題的數據倉庫是面向主題的數據倉庫是面向主題的數據倉庫是面向主題的、集成的集成的集成的集成的、穩定的穩定的穩定的穩定的、、隨時間變化的隨時間變化的隨時間變化的隨時間變化的，主要用於決策支持的資料庫系統」在Kimball的的的的<<數據倉庫生命周期工具集數據倉庫生命周期工具集數據倉庫生命周期工具集數據倉庫生命周期工具集The Data WareHouse Liftcycle Toolkit，他是這樣定義的： 1. 是操作型系統中的集成,用於當前，歷史以及其它細節查詢(業務系統的一部分) 2. 為決策支持提供當前細節數據(數據倉庫的一部分) 因此操作數據存儲（ODS）是用於支持企業日常的全局應用的數據集合，ODS的數據具有面向主題、集成的、可變的和數據是當前的或是接近當前的4個基本特徵。同樣也可以看出ODS是介於DB和DW 之間的一種數據存儲技術，和原來面向應用的分散的DB相比，ODS中的數據組織方式和數據倉庫（DW）一樣也是面向主題的和集成的，所以對進入ODS的數據也象進入數據倉庫的數據一樣進行集成處理。另外ODS只是存放當前或接近當前的數據，如果需要的話還可以對ODS中的數據進行增、刪和更新等操作，雖然DW中的數據也是面向主題和集成的，但這些數據一般不進行修改，所以ODS和DW的區別主要體現數據的可變性、當前性、穩定性、匯總度上。由於ODS仍然存儲在普通的關系資料庫中，出於性能、存儲和備份恢復等資料庫的角度以及對源資料庫的性能影響角度，個人不建議ODS保存相當長周期的數據，同樣ODS中的數據也盡量不做轉換，而是原封不動地與業務資料庫保持一致。即ODS只是業務資料庫的一個備份或者映像，目的是為了使數據倉庫的處理和決策支持要求與OLTP系統相隔離，減少決策支持要求對OLTP系統的影響。一般在帶有ODS的系統體系結構中的ODS都具備如下幾都具備如下幾個作用： 1）在業務系統和數據倉庫之間形成一個隔離層。一般的數據倉庫應用系統都具有非常復雜的數據來源，這些數據存放在不同的地理位置、不同的資料庫、不同的應用之中，從這些業務系統對數據進行抽取並不是一件容易的事。因此，ODS用於存放從業務系統直接抽取出來的數據，這些數據從數據結構、數據之間的邏輯關繫上都與業務系統基本保持一致，因此在抽取過程中極大降低了數據轉化的復雜性，而主要關注數據抽取的介面、數據量大小、抽取方式等方面的問題。 2）轉移一部分業務系統細節查詢的功能在數據倉庫建立之前，大量的報表、分析是由業務系統直接支持的，在一些比較復雜的報表生成過程中，對業務系統的運行產生相當大的壓力。ODS的數據從粒度、組織方式等各個方面都保持了與業務系統的一致，那麼原來由業務系統產生的報表、細節數據的查詢自然能夠從ODS中進行，從而降低業務系統的查詢壓力。 3）完成數據倉庫中不能完成的一些功能。一般來說，帶有ODS的數據倉庫體系結構中，DW層所存儲的數據都是進行匯總過的數據和運營指標，並不存儲每筆交易產生的細節數據，但是在某些特殊的應用中，可能需要對交易細節數據進行查詢，這時就需要把細節數據查詢的功能轉移到ODS來完成，而且ODS的數據模型按照面向主題的方式進行存儲，可以方便地支持多維分析等查詢功能。即數據倉庫從宏觀角度滿足企業的決策支持要求，而ODS層則從微觀角度反映細節交易數據或者低粒度的數據查詢要求。在一個沒有ODS層的數據倉庫應用系統體系結構中，數據倉庫中存儲的數據粒度是根據需要而確定的，但一般來說，最為細節的業務數據也是需要保留的，實際上也就相當於ODS，但與ODS所不同的是，這時的細節數據不是「當前、不斷變化的」數據，而是「歷史的，不再變化的」數據。這樣的數據倉庫的存儲壓力和性能壓力都是比較大的，因此對數據倉庫的物理設計和邏輯設計提出了更高的要求。

⑽ 實時資料庫系統

實時資料庫系統是開發實時控制系統、數據採集系統、CIMS系統等的支撐軟體。在流程行業中，大量使用實時資料庫系統進行控制系統監控，系統先進控制和優化控制，並為企業的生產管理和調度、數據分析、決橋孫梁策支持及遠程在線瀏覽提供實時數凱者據服務和多種數據管理功能。實時資料庫已經成為企業信息化的基礎數據平台，可直接實時採集、獲取企業運行過程中的各種數據，並將其轉化為對各類業務有效的公共信息，滿足企業生產管理、企業過程監控、企業經營管理之間對實時信息完整性、一致性、安全共享的需求，可為企業自動化系統與管理信息系統間建立起信息溝通的橋梁。幫助企業的各專業管理部門利用這些關鍵的實時信息，提高生產銷售的營運效率。

北京開運聯合信息技術股份有限公司-實時性工業資料庫軟體（CreatRunDatabase）

實時性工業資料庫軟體（CreatRunDatabase）是什麼？

1、實時性工業資料庫軟體（CreatRunDatabase）是開運聯合公司針對行業應用，獨立研發的，擁有全部自主知識產權的企業級實時/歷史資料庫平台。為企業監控生產情況、計算性能指標、進行事故分析和對設備啟停分析診斷、故障預防等提供重要的數據保障。

2、實時性工業資料庫軟體（CreatRunDatabase）可廣泛用於工業控制自動化數據的高速採集和存儲，提供高速、海量數據存儲和基礎分析能力。

3、實時性工業資料庫軟體（CreatRunDatabase）可隨時觀察以及在線分析生產過程。長期保存的歷史數據不僅可以重現歷史生產情況，也使大規模數據挖掘成為可能。提供企業生產信息管理解決方案，可以有效應對「從小到大」「由近及遠」的各種企業級數據應用。

4、CreatRunDatabase可在線按照時間序列以毫秒級精度自動採集企業的各類過程自動化系統中的生產數據，高效壓縮並存儲。同時可向用戶和應用程序提供實時和歷史數據，使得用戶可隨時觀察以及在線分析生產過程。長期保存的歷史數據不僅可以重現歷史生產情況，也使大規模數據挖掘成為可能。

【工業軟體開發】實時性工業資料庫軟體（CreatRunDatabase）系統主要技術指標:

支持數據類型：digital、int16、int32、float16、float32、float64、String等類型

標簽容量：200,000Tag

數據容量：TB級

客戶端並發用戶數：500個

生產過程數據採集時間響應速度：<500毫秒

時間戳解析度：毫秒

存儲速度：>100,000輸入值/秒

存檔數據回取事務吞吐量：>2,000,000輸出值/秒

實時性工業資料庫軟體（CreatRunDatabase）系統特性——高可用性:

1、高效的數據存儲策略及壓縮演算法「死區例外可變斜率壓縮演算法」，精確到每個Tag的壓縮配置，有效提高了歷史數據存儲性能，節約磁碟空間.

2、高速的數據緩存機制，使並行訪問鎖域粒度精確到「Block（1KBytes）」，實現了並行訪問能力的最大化。使歷史數據訪問路由復雜度「最小化、

均衡化，扁平化」，不界定「冷熱」數據，所有數據敏運訪問時間成本一致，同時提供均衡訪問特性和最大遠程數據訪問友好度。

3、CreatRUNSMT系統管理工具，以圖形化方式提供測點管理、系統配置管理、數據管理和安全管理等功能，方便用戶使用和維護。通過腳本語言形式實現對計算點的支持，不局限於傳統的函數變換和公式，支持循環、判斷與分支等邏輯運算等，計算點的定義靈活多樣，可實現自定義的復雜邏輯計算。

4、內置運營級傳輸平台，兼容工業現場中網路隔離安全模型，可穿越網路隔離裝置，進行

實時、歷史數據傳輸，支持本地化操作，提供靈活高效的Tag

6條件模糊查詢機制，為用戶提供最佳的數據UI，具備完善的Licence管理機制，版本發布可以精確到「點」，用戶采購可獲得高度的靈活性。

【工業軟體開發】實時性工業資料庫軟體（CreatRunDatabase）系統圖:

【工業軟體開發】實時性工業資料庫軟體（CreatRunDatabase）應用客戶：

實時數倉存儲技術

與實時數倉存儲技術相關的內容