A. 大數據時代發展歷程是什麼
大數據技術發展史:大數據的前世今生
今天我們常說的大數據技術,其實起源於Google在2004年前後發表的三篇論文,也就是我們經常聽到的「三駕馬車」,分別是分布式文件系統GFS、大數據分布式計算框架MapRece和NoSQL資料庫系統BigTable。
你知道,搜索引擎主要就做兩件事情,一個是網頁抓取,一個是索引構建,而在這個過程中,有大量的數據需要存儲和計算。這「三駕馬車」其實就是用來解決這個問題的,你從介紹中也能看出來,一個文件系統、一個計算框架、一個資料庫系統。
現在你聽到分布式、大數據之類的詞,肯定一點兒也不陌生。但你要知道,在2004年那會兒,整個互聯網還處於懵懂時代,Google發布的論文實在是讓業界為之一振,大家恍然大悟,原來還可以這么玩。
因為那個時間段,大多數公司的關注點其實還是聚焦在單機上,在思考如何提升單機的性能,尋找更貴更好的伺服器。而Google的思路是部署一個大規模的伺服器集群,通過分布式的方式將海量數據存儲在這個集群上,然後利用集群上的所有機器進行數據計算。 這樣,Google其實不需要買很多很貴的伺服器,它只要把這些普通的機器組織到一起,就非常厲害了。
當時的天才程序員,也是Lucene開源項目的創始人Doug Cutting正在開發開源搜索引擎Nutch,閱讀了Google的論文後,他非常興奮,緊接著就根據論文原理初步實現了類似GFS和MapRece的功能。
兩年後的2006年,Doug Cutting將這些大數據相關的功能從Nutch中分離了出來,然後啟動了一個獨立的項目專門開發維護大數據技術,這就是後來赫赫有名的Hadoop,主要包括Hadoop分布式文件系統HDFS和大數據計算引擎MapRece。
當我們回顧軟體開發的歷史,包括我們自己開發的軟體,你會發現,有的軟體在開發出來以後無人問津或者寥寥數人使用,這樣的軟體其實在所有開發出來的軟體中佔大多數。而有的軟體則可能會開創一個行業,每年創造數百億美元的價值,創造百萬計的就業崗位,這些軟體曾經是Windows、Linux、Java,而現在這個名單要加上Hadoop的名字。
如果有時間,你可以簡單瀏覽下Hadoop的代碼,這個純用Java編寫的軟體其實並沒有什麼高深的技術難點,使用的也都是一些最基礎的編程技巧,也沒有什麼出奇之處,但是它卻給社會帶來巨大的影響,甚至帶動一場深刻的科技革命,推動了人工智慧的發展與進步。
我覺得,我們在做軟體開發的時候,也可以多思考一下,我們所開發軟體的價值點在哪裡?真正需要使用軟體實現價值的地方在哪裡?你應該關注業務、理解業務,有價值導向,用自己的技術為公司創造真正的價值,進而實現自己的人生價值。而不是整天埋頭在需求說明文檔里,做一個沒有思考的代碼機器人。
Hadoop發布之後,Yahoo很快就用了起來。大概又過了一年到了2007年,網路和阿里巴巴也開始使用Hadoop進行大數據存儲與計算。
2008年,Hadoop正式成為Apache的頂級項目,後來Doug Cutting本人也成為了Apache基金會的主席。自此,Hadoop作為軟體開發領域的一顆明星冉冉升起。
同年,專門運營Hadoop的商業公司Cloudera成立,Hadoop得到進一步的商業支持。
這個時候,Yahoo的一些人覺得用MapRece進行大數據編程太麻煩了,於是便開發了Pig。Pig是一種腳本語言,使用類SQL的語法,開發者可以用Pig腳本描述要對大數據集上進行的操作,Pig經過編譯後會生成MapRece程序,然後在Hadoop上運行。
編寫Pig腳本雖然比直接MapRece編程容易,但是依然需要學習新的腳本語法。於是Facebook又發布了Hive。Hive支持使用SQL語法來進行大數據計算,比如說你可以寫個Select語句進行數據查詢,然後Hive會把SQL語句轉化成MapRece的計算程序。
這樣,熟悉資料庫的數據分析師和工程師便可以無門檻地使用大數據進行數據分析和處理了。Hive出現後極大程度地降低了Hadoop的使用難度,迅速得到開發者和企業的追捧。據說,2011年的時候,Facebook大數據平台上運行的作業90%都來源於Hive。
隨後,眾多Hadoop周邊產品開始出現,大數據生態體系逐漸形成,其中包括:專門將關系資料庫中的數據導入導出到Hadoop平台的Sqoop;針對大規模日誌進行分布式收集、聚合和傳輸的Flume;MapRece工作流調度引擎Oozie等。
在Hadoop早期,MapRece既是一個執行引擎,又是一個資源調度框架,伺服器集群的資源調度管理由MapRece自己完成。但是這樣不利於資源復用,也使得MapRece非常臃腫。於是一個新項目啟動了,將MapRece執行引擎和資源調度分離開來,這就是Yarn。2012年,Yarn成為一個獨立的項目開始運營,隨後被各類大數據產品支持,成為大數據平台上最主流的資源調度系統。
同樣是在2012年,UC伯克利AMP實驗室(Algorithms、Machine和People的縮寫)開發的Spark開始嶄露頭角。當時AMP實驗室的馬鐵博士發現使用MapRece進行機器學習計算的時候性能非常差,因為機器學習演算法通常需要進行很多次的迭代計算,而MapRece每執行一次Map和Rece計算都需要重新啟動一次作業,帶來大量的無謂消耗。還有一點就是MapRece主要使用磁碟作為存儲介質,而2012年的時候,內存已經突破容量和成本限制,成為數據運行過程中主要的存儲介質。Spark一經推出,立即受到業界的追捧,並逐步替代MapRece在企業應用中的地位。
一般說來,像MapRece、Spark這類計算框架處理的業務場景都被稱作批處理計算,因為它們通常針對以「天」為單位產生的數據進行一次計算,然後得到需要的結果,這中間計算需要花費的時間大概是幾十分鍾甚至更長的時間。因為計算的數據是非在線得到的實時數據,而是歷史數據,所以這類計算也被稱為大數據離線計算。
而在大數據領域,還有另外一類應用場景,它們需要對實時產生的大量數據進行即時計算,比如對於遍布城市的監控攝像頭進行人臉識別和嫌犯追蹤。這類計算稱為大數據流計算,相應地,有Storm、Flink、Spark Streaming等流計算框架來滿足此類大數據應用的場景。 流式計算要處理的數據是實時在線產生的數據,所以這類計算也被稱為大數據實時計算。
在典型的大數據的業務場景下,數據業務最通用的做法是,採用批處理的技術處理歷史全量數據,採用流式計算處理實時新增數據。而像Flink這樣的計算引擎,可以同時支持流式計算和批處理計算。
除了大數據批處理和流處理,NoSQL系統處理的主要也是大規模海量數據的存儲與訪問,所以也被歸為大數據技術。 NoSQL曾經在2011年左右非常火爆,涌現出HBase、Cassandra等許多優秀的產品,其中HBase是從Hadoop中分離出來的、基於HDFS的NoSQL系統。
我們回顧軟體發展的歷史會發現,差不多類似功能的軟體,它們出現的時間都非常接近,比如Linux和Windows都是在90年代初出現,Java開發中的各類MVC框架也基本都是同期出現,Android和iOS也是前腳後腳問世。2011年前後,各種NoSQL資料庫也是層出不群,我也是在那個時候參與開發了阿里巴巴自己的NoSQL系統。
事物發展有自己的潮流和規律,當你身處潮流之中的時候,要緊緊抓住潮流的機會,想辦法脫穎而出,即使沒有成功,也會更加洞悉時代的脈搏,收獲珍貴的知識和經驗。而如果潮流已經退去,這個時候再去往這個方向上努力,只會收獲迷茫與壓抑,對時代、對自己都沒有什麼幫助。
但是時代的浪潮猶如海灘上的浪花,總是一浪接著一浪,只要你站在海邊,身處這個行業之中,下一個浪潮很快又會到來。你需要敏感而又深刻地去觀察,略去那些浮躁的泡沫,抓住真正潮流的機會,奮力一搏,不管成敗,都不會遺憾。
正所謂在歷史前進的邏輯中前進,在時代發展的潮流中發展。通俗的說,就是要在風口中飛翔。
上面我講的這些基本上都可以歸類為大數據引擎或者大數據框架。而大數據處理的主要應用場景包括數據分析、數據挖掘與機器學習。數據分析主要使用Hive、Spark SQL等SQL引擎完成;數據挖掘與機器學習則有專門的機器學習框架TensorFlow、Mahout以及MLlib等,內置了主要的機器學習和數據挖掘演算法。
此外,大數據要存入分布式文件系統(HDFS),要有序調度MapRece和Spark作業執行,並能把執行結果寫入到各個應用系統的資料庫中,還需要有一個大數據平台整合所有這些大數據組件和企業應用系統。
圖中的所有這些框架、平台以及相關的演算法共同構成了大數據的技術體系,我將會在專欄後面逐個分析,幫你能夠對大數據技術原理和應用演算法構建起完整的知識體系,進可以專職從事大數據開發,退可以在自己的應用開發中更好地和大數據集成,掌控自己的項目。
希望對您有所幫助!~
B. 滴普科技:為什麼越來越多的企業會選擇「湖倉一體」
資料庫行業正走向分水嶺。
過去幾年,全球資料庫行業發展迅猛。2020年,Gartner首次把資料庫領域的魔力象限重新定義為Cloud DBMS,把雲資料庫作為唯一的評價方向;2021年,Gartner魔力象限又發生了兩個關鍵的變化: 1、Snowflake和Databricks兩個雲端數據倉庫進入領導者象限;2、放開了魔力象限的收入門檻限制,SingleStore、Exasol、MariaDB、Couchbase等資料庫新勢力首次進入榜單 。
某種程度上,這種變化的背後,暗示著全球資料庫已經進入發展的黃金時代,也是一眾新興勢力的加速崛起之年。其中,最為典型的例子是Snowflake和Databricks經常隔空喊話,前者是雲端數倉的代表玩家,去年繼續保持了1倍以上的業務增長;後者因推出「湖倉一體」,估值一路飆升至360億美金,兩者之爭,其實是資料庫新舊架構之爭。
隨著企業數字化駛入深水區,對於數據使用場景也呈現多元化的趨勢,過去容易被企業忽略的數據,開始從幕後走到台前,如何為眾多場景選擇一款合適的資料庫產品,已經成了很多CIO和管理者的一道必答題。 但有一點可以確定的是,過去的資料庫已難以匹配眼下日益增長的數據復雜度需求,基於擴展性和可用性劃分,分布式架構突破單機、共享、集群架構下的資料庫局限,近些年發展態勢迅猛。 為此,這篇文章我們將主要分析:
1、數據倉、數據湖、湖倉一體究竟是什麼?
2、架構演進,為什麼說湖倉一體代表了未來?
3、現在是布局湖倉一體的好時機嗎?
01:數據湖+數據倉 湖倉一體
在湖倉一體出現之前,數據倉庫和數據湖是被人們討論最多的話題。
正式切入主題前,先跟大家科普一個概念,即大數據的工作流程是怎樣的?這里就要涉及到兩個相對陌生的名詞: 數據的結構化程度 和 數據的信息密度 。前者描述的是數據本身的規范性,後者描述的是單位存儲體積內、包含信息量的大小。
一般來說,人們獲取到的原始數據大多是非結構化的,且信息密度比較低,通過對數據進行清洗、分析、挖掘等操作,可以排除無用數據、找到數據中的關聯性,在這個過程中,數據的結構化程度、信息密度也隨之提升,最後一步,就是把優化過後的數據加以利用,變成真正的生產資料。
簡而言之,大數據處理的過程其實是一個提升數據結構化程度和信息密度的過程。 在這個過程中,數據的特徵一直在發生變化,不同的數據,適合的存儲介質也有所不同,所以才有了一度火熱的數據倉庫和數據湖之爭。
我們先來聊聊數據倉庫,它誕生於1990年,是一個面向主題的、集成的、相對穩定的、反映 歷史 變化的數據集合,主要用於支持管理決策和信息的全局共享。 簡單點說,數據倉庫就像是一個大型圖書館,裡面的數據需要按照規范放好,你可以按照類別找到想要的信息 。
就目前來說,對數據倉庫的主流定義是位於多個資料庫上的大容量存儲庫,它的作用在於存儲大量的結構化數據,為管理分析和業務決策提供統一的數據支持,雖然存取過程相對比較繁瑣,對於數據類型有一定限制,但在那個年代,數據倉庫的功能性已經夠用了,所以在2011年前後,市場還是數據倉庫的天下。
到了互聯網時代,數據量呈現「井噴式」爆發,數據類型也變得異構化。受數據規模和數據類型的限制,傳統數據倉庫無法支撐起互聯網時代的商業智能,隨著Hadoop與對象存儲的技術成熟,數據湖的概念應用而生,在2011年由James Dixon提出。
相比於數據倉庫,數據湖是一種不斷演進中、可擴展的大數據存儲、處理、分析的基礎設施。 它就像一個大型倉庫,可以存儲任何形式(包括結構化和非結構化)和任何格式(包括文本、音頻、視頻和圖像)的原始數據,數據湖通常更大,存儲成本也更為廉價 。但它的問題也很明顯,數據湖缺乏結構性,一旦沒有被治理好,就會變成數據沼澤。
從產品形態上來說,數據倉庫一般是獨立標准化產品,數據湖更像是一種架構指導,需要配合著系列周邊工具,來實現業務需要。換句話說,數據湖的靈活性,對於前期開發和前期部署是友好的;數據倉庫的規范性,對於大數據後期運行和公司長期發展是友好的,那麼,有沒有那麼一種可能,有沒有一種新架構,能兼具數據倉庫和數據湖的優點呢?
於是,湖倉一體誕生了。 依據DataBricks公司對Lakehouse 的定義,湖倉一體是一種結合了數據湖和數據倉庫優勢的新範式,在用於數據湖的低成本存儲上,實現與數據倉庫中類似的數據結構和數據管理功能。湖倉一體是一種更開放的新型架構,有人把它做了一個比喻,就類似於在湖邊搭建了很多小房子,有的負責數據分析,有的運轉機器學習,有的來檢索音視頻等,至於那些數據源流,都可以從數據湖裡輕松獲取。
就湖倉一體發展軌跡來看,早期的湖倉一體,更多是一種處理思想,處理上將數據湖和數據倉庫互相打通,現在的湖倉一體,雖然仍處於發展的初期階段,但它已經不只是一個純粹的技術概念,而是被賦予了更多與廠商產品層面相關的含義和價值。
這里需要注意的是,「湖倉一體」並不等同於「數據湖」+「數據倉」,這是一個極大的誤區,現在很多公司經常會同時搭建數倉、數據湖兩種存儲架構,一個大的數倉拖著多個小的數據湖,這並不意味著這家公司擁有了湖倉一體的能力,湖倉一體絕不等同於數據湖和數據倉簡單打通,反而數據在這兩種存儲中會有極大冗餘度。
02:為什麼說湖倉一體是未來?
回歸開篇的核心問題:湖倉一體憑什麼能代表未來?
關於這個問題,我們其實可以換一個問法,即 在數據智能時代,湖倉一體會不會成為企業構建大數據棧的必選項? 就技術維度和應用趨勢來看,這個問題的答案幾乎是肯定的,對於高速增長的企業來說,選擇湖倉一體架構來替代傳統的獨立倉和獨立湖,已經成為不可逆轉的趨勢。
一個具有說服力的例證是,現階段,國內外各大雲廠商均陸續推出了自己的「湖倉一體」技術方案,比如亞馬遜雲 科技 的Redshift Spectrum、微軟的Azure Databricks、華為雲的Fusion Insight、滴普 科技 的FastData等,這些玩家有雲計算的老牌龍頭,也有數據智能領域的新勢力。
事實上,架構的演進是由業務直接驅動的,如果業務側提出了更高的性能要求,那麼在大數據架構建設的過程中,就需要資料庫架構建設上進行技術升級。 以國內數字化企業服務領域成長最快的獨角獸滴普 科技 為例,依託新一代湖倉一體、流批一體的數據分析基礎平台FastData,基於對先進製造、生物醫葯、消費流通等行業的深度洞察,滴普 科技 從實際場景切入,為客戶提供了一站式的數字化解決方案。
滴普方面認為,「 在數據分析領域,湖倉一體是未來。它 可以更好地應對AI時代數據分析的需求,在存儲形態、計算引擎、數據處理和分析、開放性以及面向AI的演進等方面,要領先於過去的分析型資料庫。」以AI應用層面為例,湖倉一體架構天然適合AI類的分析(包括音視頻非結構化數據存儲,兼容AI計算框架,具有模型開發和機器學習全生命周期的平台化能力),也更適合大規模機器學習時代。
這一點,和趨勢不謀而合。
就在前不久,Gartner發布了湖倉一體的未來應用場景預測:湖倉一體架構需要支持三類實時場景,第一類是實時持續智能;第二類是實時按需智能;第三類是離線按需智能,這三類場景將可以通過快照視圖、實時視圖以及實時批視圖提供給數據消費者,這同樣是未來湖倉一體架構需要持續演進的方向。
03:現在是布局湖倉一體的好時機嗎?
從市場發展走向來看,「湖倉一體」架構是基於技術發展進程的必經之路。
但由於這個新型開放架構仍處於發展早期,國內外企業數字化水平和市場認知的不同,造成了解決方案也存在著較大的差異。在業內投資人看來,「 雖然美國的企業服務市場比我們成熟的多,也有很多路徑可以參考,但中國市場卻有著很多中國特色。以對標Databricks的滴普 科技 為例,美國企業服務市場往往賣產品就可以了,但中國大客戶群體需要更與客戶資深場景深度融合的解決方案,解決方案需要兼顧通用性和定製化。 」
在此前與滴普 科技 的合作中,百麗國際就已經完成了統一數倉的搭建,實現了多個業務線的數據採集和各個業務域的數據建設。在保證前端數據正常運行、「熱切換」底層應用的前提下,滴普 科技 和百麗國際緊密協作,在短短幾個月時間里將多個數倉整合為統一數倉,有效統一了業務口徑,大幅縮減了開發運維工作量,整個業務價值鏈也形成了閉環。
這也是「湖倉一體」的能力價值所在:隨著數據結構的逐漸多樣性,3D圖紙、直播視頻、會議視頻、音頻等數據資料越來越多,為深度挖掘數據價值,依託於領先的湖倉一體技術架構,百麗國際可先將海量的多模數據存儲入湖,在未來算力允許時,及挖掘深度的業務分析場景後,從數據湖中抓取數據分析。
舉個簡單的例子,某個設計師想要設計一款鞋子,一般會從 歷史 數據中找有效信息參考,設計師也許只需要一張貨品照片,就能像瀏覽電影般,了解到該商品多年來全生命周期的銷售業績、品牌故事、競品分析等數據,賦能生產及業務決策,實現數據價值的最大化。
一般來說,大體量的企業想要保持持續增長,往往需要依靠大量、有效的數據輸出,進而實現智慧決策。很多企業出於 IT 建設能力的限制,導致很多事情沒法做,但通過湖倉一體架構,讓之前被限制的數據價值得以充分發揮,如果企業能夠在注重數據價值的同時,並有意識地把它保存下來,企業就完成了數字化轉型的重要命題之一。
我們也有理由相信,隨著企業數字化轉型加速,湖倉一體架構也會有更為廣闊的發展空間。
C. 一場替換傳統資料庫的行動正在全球范圍悄然進行
隨著全球各大 科技 巨頭的競相加入,開源軟體技術已經活躍在各個信息技術領域當中。其中,大數據生態成為開源技術的直接受益者。開源技術適用於龐雜的數據管理系統,帶來敏捷、高效、可擴展以及可自控的管理能力,並幫助企業降低IT建設及維護成本。2018年雙11當天,阿里雲原生資料庫PolarDB輕松應對了0點0分0秒瞬時提升122倍的數據洪峰。Netflix也採用自研開源架構Metacat將海量數據集合成一個「單一」的數據倉庫,大幅提升管理能效。
當前,我國有越來越多的企業、人才加入到開源社區,貢獻力也「後來居上」,共同推進開源項目、開源生態的繁榮和可持續發展。
大數據生態成為開源技術重大「受益者」
近年來,在互聯網服務、多媒體以及科學研究等多個領域,都可見到大數據的身影。在大數據時代,不斷增長的數據量、快速處理數據的需求以及數據類型、結構和來源的多樣性給資料庫敏捷、高效、可擴展性以及個性化管理帶來了全新挑戰。
開源技術賦能了大數據生態的高質量發展。賽迪智庫信息化和軟體服務業所博士蒲松濤表示,經過了數十年的發展,開源軟體和開源工具已經應用到了大數據產業發展的各個環節,基於開源軟體,企業可以快速構建大數據應用平台,提供豐富的大數據開發和應用工具。
當前,幾乎各種規模的企業都在使用開源軟體和工具做大數據處理和基於數據的預測分析。開源界也涌現出了Hadoop、OpenStack、OpenShift、Maprece、docker等引領行業技術創新方向的重量級開源項目。
華泰人壽基於OpenShift架構打造易於管理的新IT系統,以提升企業競爭力,實現業務數字化轉型。在基礎設施上,引入紅帽OpenShift容器雲解決方案和紅帽Ceph分布式存儲。通過將保險業務上docker雲,實現華泰人壽業務的彈性伸縮和快速上線,加速其互聯網保險項目快速落地。
美國知名在線影片租賃提供商Netflix也採用了大數據發現服務的開源框架Metacat。由於Netflix的數據倉庫由許多大型的數據集組成,為了確保數據平台能夠橫跨這些數據集成為一個「單一」的數據倉庫,Netflix開發的元數據服務Metacat,能讓數據的發生、發現、處理和管理變得更加快捷高效、處理精度大幅提升;同時還可兼容Spark、Presto、Pig和Hive架構。Netflix軟體架構師Ajoy Majumdar指出,開放開源是身為技術公司的競爭戰略,既能夠將自己的解決方案建立為行業標准和最佳實踐,又能建立Netflix的技術品牌,還能從共享生態中獲得反饋輸入並受益。
事實上,推動大數據應用高質量發展的主流開源平台還有很多,例如Spark、Shark、Bagel等。蒲松濤表示,這些開源平台大幅降低應用門檻,有效幫助企業實現工業級應用,進而帶動各行業大規模部署。此外,大數據還涌現出了一批開源支線平台。其中,Storm完全擺脫了經典的MapRece架構,重新設計了一個適用於流式計算的架構,以數據流為驅動觸發計算,計算時效性高,適應有向無環圖計算拓撲的設計,計算方式較為靈活,在業界得到了一定的部署應用。
開源社區供需「雙贏」中國力量已崛起
開源社區的建立為推動開源軟體發展、構建行業競爭優勢做出突出貢獻,隊伍的壯大需要每一位使用者持續不斷的貢獻智慧,以實現真正的「共贏」。開源的發展歷程中,極客、大公司、商業顛覆者輪番登場,開源技術的訴求也從商業驅動向生態驅動發展。中國工程院院士廖湘科指出,開源是軟體創新技術的主要來源,是生態抓手,而非贏利的切入點。
開源軟體的「共享和貢獻」機制吸引了眾多開發者的參與,給了每一位開發者「顛覆 游戲 規則」的權利。有了這種生態的加持,信息技術將被快速推進,各個參與者將持續獲利。對此,李飛飛表示,開源生態的受益者是開源技術的需求側和供給側雙方。從供給側角度來看,參與的人越多,思維碰撞而引發的迭代演進就會越快;從需求側角度來看,各個企業不僅可以免除被閉源系統「技術綁定」,還可以在開源社區實現資料庫技術遷移,企業還可針對企業技術特徵進行資料庫的個性定製化,實現大量的應用和代碼的改造且系統間互相兼容。
中國開源軟體推進聯盟副 主席 兼秘書長劉澎在PostgreSQL .CN 2019上表示,當前國內越來越多的企業為開源做出重要貢獻,我國的開源實力已經崛起。以華為、阿里等為代表的開源軟體開發者已經逐漸與亞馬遜、微軟站到了同一高度,實現了從「使用者」到「引領者」的身份轉變。
目前,中國企業在Linux基金會中有1個白金會員(華為),1個金牌會員(阿里雲)和數十家銀牌會員(包括騰訊、中國移動、聯想等)。華為在多個開源社區貢獻排名前列。中國工程院院士倪光南認為,華為是開源軟體的優秀開發代表,通過引進、消化,實現創新發展,進而貢獻給整個開源社區。
阿里雲也成為 游戲 規則的重要改變者和全球雲資料庫領跑者之一。2018年,阿里雲資料庫成功進入Gartner資料庫魔力象限,這是該榜單首次出現中國公司。近日,Gartner發布的全球雲資料庫市場份額榜單中,阿里雲位居第三,超越了Oracle、IBM和谷歌。5月21日,阿里雲提供傳統資料庫一鍵遷移上雲能力,可以幫助企業將線下的MySQL、PostgreSQL和Oracle等資料庫輕松上雲,最快數小時內遷移完成。李飛飛表示,阿里雲自研的PolarDB雲原生資料庫的分布式存儲架構具有一寫多度、計算與存儲分離等優勢,幫助淘寶交易平台應對了雙11當天瞬時提升122倍的數據洪峰。
此外,國內還有包括網路、浪潮、瀚高等在內的眾多企業積極參與並貢獻到開源社區當中。人工智慧、自動駕駛等新興信息技術也成為開源項目的重要應用領域。
D. 數據倉庫的演進歷史是怎樣的
數據盯輪倉庫技術的早盯發展歷程
(1)萌芽階段。數據倉庫概念最早可追溯到20世紀70年代,MIT的研究員致力於研究一種優化的技術架構,該架構試圖將業務處理系統和分析系統分開,即將業務處理和分析處理分為不同層次,針對各自的特點採取不同的架構設計原則,MIT的研究員認為這兩種信息處理的方式具有顯著差別,以至於必須採取完全不同的架構和設計方法。但受限於當時的信息處理能力,這個研究僅僅停留在理論層面。
(2)探索階段。20世紀80年代中後期,DEC公司結合MIT的研究結論,建立了TA2(TechnicalArchitecture2)規范,該規范定義了分析系統的四個組成部分:數據獲取、數據訪問、目錄和用戶服務。這是系統架構的一次重大轉變,第一次明確提出分析系統架構並將其運用於實踐。
(3)雛形階段。1988年,為解決全企業集成問題,IBM公司第一次提出了信息倉庫(InformationWarehouse)的概念,並稱之為VITAL規范(VirtuallyIntegratedTechnical ArchitectureLifecycle)。VITAL定義了85種信息倉庫組件,包括PC、圖形化界面、面向對象的組件以及區域網等。至此,數據倉庫的基本原理、技術架構以及分析系統的主要原則都已確定,數據倉庫初具雛形陸則和。
(4)確立階段。1991年Bill Inmon出版了他的第一本關於數據倉庫的書《Building the DataWarehouse》,標志著數據倉庫概念的確立。該書指出,數據倉庫(DataWarehouse)是一個面向主題的(SubjectOriented)、集成的(Integrated)、相對穩定的(Non-Volatile)、反映歷史變化的(TimeVariant)數據集合,用於支持管理決策(Decision-MakingSupport)。該書還提供了建立數據倉庫的指導意見和基本原則。憑借著這本書,Bill Inmon被稱為數據倉庫之父。
以上供參考。