1. 「數據湖篇」一文帶你深入理解數據湖
數據湖相當於一個匯集著來自各個異構數據源的 原生態數據,不經過加工清洗數據 ,數據的格式也五花八門, 結構化和半結構化和非結構化的數據 都能夠被數據湖管理起來。
那麼就引申出 數據湖的特點 :
數據湖和數據倉庫可以用來互補,數據湖可以在非結構化數據處理方面擴展業務能力。對於許多公司來說,通過數據湖來增強現有的數據倉庫,已經被證明是一種高效的方式
數據湖的本質 ,是由 數據存儲架構+數據處理工具 組成的解決方案。
數據架構存儲 :要求要有足夠強大的擴展性和可靠性,才能存得下和存得久要入湖的數據,比如AmazonWebServices亞馬遜雲科技的S3雲對象存儲。
數據處理工具 :主要解決2類問題,一類是把數據移動到湖裡,一類是管理湖裡的數據。
總結:數據湖不只是個「囤積」數據的「大水坑」,除了用存儲技術構建的湖底座以外,還包含一系列的數據入湖、數據出湖、數據管理、數據應用工具集,共同組成了數據湖解決方案。
數據沼澤 :各式各樣的數據都往"湖裡傾倒",缺乏元數據管理,最終會把好好的數據湖變成了數據沼澤,導致數據湖中的數據使用困難。
數據重力 :指的是隨著數據積累越來越多,則要移動它們就越來越難,這便是所謂的數據重力。
Lake House,即所謂的 湖倉一體架構 , 數據湖和數據倉庫相結合發揮作用,實現「湖裡」和「倉里」的數據/元數據能夠無縫打通,並且「自由」流動 。比如湖裡的「新鮮」數據可以流到倉里,甚至可以直接被數倉使用,而倉里的「不新鮮」數據,也可以流到湖裡,低成本長久保存,供未來的數據挖掘使用。
Lake House不僅要把湖、倉打通,還要克服「數據重力」,讓數據在這些服務之間按需來回移動:入湖、出湖、環湖……
智能湖倉的設計, 採用各下游組件都「環湖而造」的理念 ,既可以直接操縱湖內數據,也可以從湖中攝取數據,還可以向湖中回注數據,同時環湖的服務彼此之間也可以輕松交換數據。
上面這個六層架構,從數據源定義、數據攝取和入湖入倉,到湖倉打通與集成,再到數據出湖、數據處理和數據消費,一氣呵成,各種雲上數據服務無縫集成在一起,創新了未來一個新的大數據解決方案。
2. 什麼是大數據存儲管理
1.分布式存儲
傳統化集中式存儲存在已有一段時間。但大數據並非真的適合集中式存儲架構。Hadoop設計用於將計算更接近數據節點,同時採用了HDFS文件系統的大規模橫向擴展功能。
雖然,通常解決Hadoop管理自身數據低效性的方案是將Hadoop 數據存儲在SAN上。但這也造成了它自身性能與規模的瓶頸。現在,如果你把所有的數據都通過集中式SAN處理器進行處理,與Hadoop的分布式和並行化特性相悖。你要麼針對不同的數據節點管理多個SAN,要麼將所有的數據節點都集中到一個SAN。
但Hadoop是一個分布式應用,就應該運行在分布式存儲上,這樣存儲就保留了與Hadoop本身同樣的靈活性,不過它也要求擁抱一個軟體定義存儲方案,並在商用伺服器上運行,這相比瓶頸化的Hadoop自然更為高效。
2.超融合VS分布式
注意,不要混淆超融合與分布式。某些超融合方案是分布式存儲,但通常這個術語意味著你的應用和存儲都保存在同一計算節點上。這是在試圖解決數據本地化的問題,但它會造成太多資源爭用。這個Hadoop應用和存儲平台會爭用相同的內存和CPU。Hadoop運行在專有應用層,分布式存儲運行在專有存儲層這樣會更好。之後,利用緩存和分層來解決數據本地化並補償網路性能損失。
3.避免控制器瓶頸(Controller Choke Point)
實現目標的一個重要方面就是——避免通過單個點例如一個傳統控制器來處理數據。反之,要確保存儲平台並行化,性能可以得到顯著提升。
此外,這個方案提供了增量擴展性。為數據湖添加功能跟往裡面扔x86伺服器一樣簡單。一個分布式存儲平台如有需要將自動添加功能並重新調整數據。
4.刪重和壓縮
掌握大數據的關鍵是刪重和壓縮技術。通常大數據集內會有70%到90%的數據簡化。以PB容量計,能節約數萬美元的磁碟成本。現代平台提供內聯(對比後期處理)刪重和壓縮,大大降低了存儲數據所需能力。
5.合並Hadoop發行版
很多大型企業擁有多個Hadoop發行版本。可能是開發者需要或是企業部門已經適應了不同版本。無論如何最終往往要對這些集群的維護與運營。一旦海量數據真正開始影響一家企業時,多個Hadoop發行版存儲就會導致低效性。我們可以通過創建一個單一,可刪重和壓縮的數據湖獲取數據效率
6.虛擬化Hadoop
虛擬化已經席捲企業級市場。很多地區超過80%的物理伺服器現在是虛擬化的。但也仍有很多企業因為性能和數據本地化問題對虛擬化Hadoop避而不談。
7.創建彈性數據湖
創建數據湖並不容易,但大數據存儲可能會有需求。我們有很多種方法來做這件事,但哪一種是正確的?這個正確的架構應該是一個動態,彈性的數據湖,可以以多種格式(架構化,非結構化,半結構化)存儲所有資源的數據。更重要的是,它必須支持應用不在遠程資源上而是在本地數據資源上執行。
不幸的是,傳統架構和應用(也就是非分布式)並不盡如人意。隨著數據集越來越大,將應用遷移到數據不可避免,而因為延遲太長也無法倒置。
理想的數據湖基礎架構會實現數據單一副本的存儲,而且有應用在單一數據資源上執行,無需遷移數據或製作副本
8.整合分析
分析並不是一個新功能,它已經在傳統RDBMS環境中存在多年。不同的是基於開源應用的出現,以及資料庫表單和社交媒體,非結構化數據資源(比如,維基網路)的整合能力。關鍵在於將多個數據類型和格式整合成一個標準的能力,有利於更輕松和一致地實現可視化與報告製作。合適的工具也對分析/商業智能項目的成功至關重要。
9. 大數據遇見大視頻
大數據存儲問題已經讓人有些焦頭爛額了,現在還出現了大視頻現象。比如,企業為了安全以及操作和工業效率逐漸趨於使用視頻監控,簡化流量管理,支持法規遵從性和幾個其它的使用案例。很短時間內這些資源將產生大量的內容,大量必須要處理的內容。如果沒有專業的存儲解決方案很可能會導致視頻丟失和質量降低的問題。
10.沒有絕對的贏家
Hadoop的確取得了一些進展。那麼隨著大數據存儲遍地開花,它是否會成為贏家,力壓其它方案,其實不然。
比如,基於SAN的傳統架構在短期內不可取代,因為它們擁有OLTP,100%可用性需求的內在優勢。所以最理想的辦法是將超融合平台與分布式文件系統和分析軟體整合在一起。而成功的最主要因素則是存儲的可擴展性因素。
3. 數據湖是什麼東東 數據湖的四個最佳實踐
數據湖聽起來很簡單:
把數據或信息匯集到一個結合處理速度和存儲空間的大數據系統――Hadoop集群或內存解決方案,那樣業務部門就能訪問數據,獲取新的洞察力。
不過,與IT行業的許多技術一樣,現實比夢想困難得多。
4. 大數據分析給企業帶來哪些挑戰
IT源系統的多樣性
存儲數據是一個復雜的過程,維護時會增加並發症。財富500強企業平均擁有數百個企業IT系統。由於格式不同,跨數據源的引用不匹配以及重復,大多數文件處於混亂狀態。
管理高頻數據
實時數據流。存在諸如數據審查之類的問題,例如,對於海上低壓壓縮機的排氣溫度的讀取本身僅是有限的值。但是,結合環境溫度,風速,壓縮機泵轉速,以前的維護操作歷史和維護日誌,可以為海上鑽機操作員創建有價值的警報系統。
與數據湖一起運作
數據湖是一個集中式存儲庫,可以存儲任何規模的結構化和非結構化數據。將組織的所有數據放在一個窗口中不會帶來任何好處。它不僅使數據位於孤立的企業系統中,還激起了數據的復雜性。
組織各種數據內容
無法保證數據採用單一格式。公司通過圖像,文件,視頻,文檔等收集數據。但是,它們被放在稱為大數據的同一個屋檐下。因此,在進行分析之前,很難區分它們並將其置於不同的渠道,並且涉及許多機制。另一個麻煩是數據的清晰度,有些文件甚至不符合最低清晰度要求。
採用新興的AI工具
人工智慧工具正在發芽,在管理大數據時,它們非常有用。企業IT和分析團隊需要提供工具,使具有不同水平的數據科學能力的員工能夠使用大型數據集並使用統一的映像執行預測性分析。
關於大數據分析給企業帶來哪些挑戰,青藤小編就和您分享到這里了。如果您對大數據工程有濃厚的興趣,希望這篇文章可以為您提供幫助。如果您還想了解更多關於數據分析師、大數據工程師的技巧及素材等內容,可以點擊本站的其他文章進行學習。
5. 滴普科技:為什麼越來越多的企業會選擇「湖倉一體」
資料庫行業正走向分水嶺。
過去幾年,全球資料庫行業發展迅猛。2020年,Gartner首次把資料庫領域的魔力象限重新定義為Cloud DBMS,把雲資料庫作為唯一的評價方向;2021年,Gartner魔力象限又發生了兩個關鍵的變化: 1、Snowflake和Databricks兩個雲端數據倉庫進入領導者象限;2、放開了魔力象限的收入門檻限制,SingleStore、Exasol、MariaDB、Couchbase等資料庫新勢力首次進入榜單 。
某種程度上,這種變化的背後,暗示著全球資料庫已經進入發展的黃金時代,也是一眾新興勢力的加速崛起之年。其中,最為典型的例子是Snowflake和Databricks經常隔空喊話,前者是雲端數倉的代表玩家,去年繼續保持了1倍以上的業務增長;後者因推出「湖倉一體」,估值一路飆升至360億美金,兩者之爭,其實是資料庫新舊架構之爭。
隨著企業數字化駛入深水區,對於數據使用場景也呈現多元化的趨勢,過去容易被企業忽略的數據,開始從幕後走到台前,如何為眾多場景選擇一款合適的資料庫產品,已經成了很多CIO和管理者的一道必答題。 但有一點可以確定的是,過去的資料庫已難以匹配眼下日益增長的數據復雜度需求,基於擴展性和可用性劃分,分布式架構突破單機、共享、集群架構下的資料庫局限,近些年發展態勢迅猛。 為此,這篇文章我們將主要分析:
1、數據倉、數據湖、湖倉一體究竟是什麼?
2、架構演進,為什麼說湖倉一體代表了未來?
3、現在是布局湖倉一體的好時機嗎?
01:數據湖+數據倉 湖倉一體
在湖倉一體出現之前,數據倉庫和數據湖是被人們討論最多的話題。
正式切入主題前,先跟大家科普一個概念,即大數據的工作流程是怎樣的?這里就要涉及到兩個相對陌生的名詞: 數據的結構化程度 和 數據的信息密度 。前者描述的是數據本身的規范性,後者描述的是單位存儲體積內、包含信息量的大小。
一般來說,人們獲取到的原始數據大多是非結構化的,且信息密度比較低,通過對數據進行清洗、分析、挖掘等操作,可以排除無用數據、找到數據中的關聯性,在這個過程中,數據的結構化程度、信息密度也隨之提升,最後一步,就是把優化過後的數據加以利用,變成真正的生產資料。
簡而言之,大數據處理的過程其實是一個提升數據結構化程度和信息密度的過程。 在這個過程中,數據的特徵一直在發生變化,不同的數據,適合的存儲介質也有所不同,所以才有了一度火熱的數據倉庫和數據湖之爭。
我們先來聊聊數據倉庫,它誕生於1990年,是一個面向主題的、集成的、相對穩定的、反映 歷史 變化的數據集合,主要用於支持管理決策和信息的全局共享。 簡單點說,數據倉庫就像是一個大型圖書館,裡面的數據需要按照規范放好,你可以按照類別找到想要的信息 。
就目前來說,對數據倉庫的主流定義是位於多個資料庫上的大容量存儲庫,它的作用在於存儲大量的結構化數據,為管理分析和業務決策提供統一的數據支持,雖然存取過程相對比較繁瑣,對於數據類型有一定限制,但在那個年代,數據倉庫的功能性已經夠用了,所以在2011年前後,市場還是數據倉庫的天下。
到了互聯網時代,數據量呈現「井噴式」爆發,數據類型也變得異構化。受數據規模和數據類型的限制,傳統數據倉庫無法支撐起互聯網時代的商業智能,隨著Hadoop與對象存儲的技術成熟,數據湖的概念應用而生,在2011年由James Dixon提出。
相比於數據倉庫,數據湖是一種不斷演進中、可擴展的大數據存儲、處理、分析的基礎設施。 它就像一個大型倉庫,可以存儲任何形式(包括結構化和非結構化)和任何格式(包括文本、音頻、視頻和圖像)的原始數據,數據湖通常更大,存儲成本也更為廉價 。但它的問題也很明顯,數據湖缺乏結構性,一旦沒有被治理好,就會變成數據沼澤。
從產品形態上來說,數據倉庫一般是獨立標准化產品,數據湖更像是一種架構指導,需要配合著系列周邊工具,來實現業務需要。換句話說,數據湖的靈活性,對於前期開發和前期部署是友好的;數據倉庫的規范性,對於大數據後期運行和公司長期發展是友好的,那麼,有沒有那麼一種可能,有沒有一種新架構,能兼具數據倉庫和數據湖的優點呢?
於是,湖倉一體誕生了。 依據DataBricks公司對Lakehouse 的定義,湖倉一體是一種結合了數據湖和數據倉庫優勢的新範式,在用於數據湖的低成本存儲上,實現與數據倉庫中類似的數據結構和數據管理功能。湖倉一體是一種更開放的新型架構,有人把它做了一個比喻,就類似於在湖邊搭建了很多小房子,有的負責數據分析,有的運轉機器學習,有的來檢索音視頻等,至於那些數據源流,都可以從數據湖裡輕松獲取。
就湖倉一體發展軌跡來看,早期的湖倉一體,更多是一種處理思想,處理上將數據湖和數據倉庫互相打通,現在的湖倉一體,雖然仍處於發展的初期階段,但它已經不只是一個純粹的技術概念,而是被賦予了更多與廠商產品層面相關的含義和價值。
這里需要注意的是,「湖倉一體」並不等同於「數據湖」+「數據倉」,這是一個極大的誤區,現在很多公司經常會同時搭建數倉、數據湖兩種存儲架構,一個大的數倉拖著多個小的數據湖,這並不意味著這家公司擁有了湖倉一體的能力,湖倉一體絕不等同於數據湖和數據倉簡單打通,反而數據在這兩種存儲中會有極大冗餘度。
02:為什麼說湖倉一體是未來?
回歸開篇的核心問題:湖倉一體憑什麼能代表未來?
關於這個問題,我們其實可以換一個問法,即 在數據智能時代,湖倉一體會不會成為企業構建大數據棧的必選項? 就技術維度和應用趨勢來看,這個問題的答案幾乎是肯定的,對於高速增長的企業來說,選擇湖倉一體架構來替代傳統的獨立倉和獨立湖,已經成為不可逆轉的趨勢。
一個具有說服力的例證是,現階段,國內外各大雲廠商均陸續推出了自己的「湖倉一體」技術方案,比如亞馬遜雲 科技 的Redshift Spectrum、微軟的Azure Databricks、華為雲的Fusion Insight、滴普 科技 的FastData等,這些玩家有雲計算的老牌龍頭,也有數據智能領域的新勢力。
事實上,架構的演進是由業務直接驅動的,如果業務側提出了更高的性能要求,那麼在大數據架構建設的過程中,就需要資料庫架構建設上進行技術升級。 以國內數字化企業服務領域成長最快的獨角獸滴普 科技 為例,依託新一代湖倉一體、流批一體的數據分析基礎平台FastData,基於對先進製造、生物醫葯、消費流通等行業的深度洞察,滴普 科技 從實際場景切入,為客戶提供了一站式的數字化解決方案。
滴普方面認為,「 在數據分析領域,湖倉一體是未來。它 可以更好地應對AI時代數據分析的需求,在存儲形態、計算引擎、數據處理和分析、開放性以及面向AI的演進等方面,要領先於過去的分析型資料庫。」以AI應用層面為例,湖倉一體架構天然適合AI類的分析(包括音視頻非結構化數據存儲,兼容AI計算框架,具有模型開發和機器學習全生命周期的平台化能力),也更適合大規模機器學習時代。
這一點,和趨勢不謀而合。
就在前不久,Gartner發布了湖倉一體的未來應用場景預測:湖倉一體架構需要支持三類實時場景,第一類是實時持續智能;第二類是實時按需智能;第三類是離線按需智能,這三類場景將可以通過快照視圖、實時視圖以及實時批視圖提供給數據消費者,這同樣是未來湖倉一體架構需要持續演進的方向。
03:現在是布局湖倉一體的好時機嗎?
從市場發展走向來看,「湖倉一體」架構是基於技術發展進程的必經之路。
但由於這個新型開放架構仍處於發展早期,國內外企業數字化水平和市場認知的不同,造成了解決方案也存在著較大的差異。在業內投資人看來,「 雖然美國的企業服務市場比我們成熟的多,也有很多路徑可以參考,但中國市場卻有著很多中國特色。以對標Databricks的滴普 科技 為例,美國企業服務市場往往賣產品就可以了,但中國大客戶群體需要更與客戶資深場景深度融合的解決方案,解決方案需要兼顧通用性和定製化。 」
在此前與滴普 科技 的合作中,百麗國際就已經完成了統一數倉的搭建,實現了多個業務線的數據採集和各個業務域的數據建設。在保證前端數據正常運行、「熱切換」底層應用的前提下,滴普 科技 和百麗國際緊密協作,在短短幾個月時間里將多個數倉整合為統一數倉,有效統一了業務口徑,大幅縮減了開發運維工作量,整個業務價值鏈也形成了閉環。
這也是「湖倉一體」的能力價值所在:隨著數據結構的逐漸多樣性,3D圖紙、直播視頻、會議視頻、音頻等數據資料越來越多,為深度挖掘數據價值,依託於領先的湖倉一體技術架構,百麗國際可先將海量的多模數據存儲入湖,在未來算力允許時,及挖掘深度的業務分析場景後,從數據湖中抓取數據分析。
舉個簡單的例子,某個設計師想要設計一款鞋子,一般會從 歷史 數據中找有效信息參考,設計師也許只需要一張貨品照片,就能像瀏覽電影般,了解到該商品多年來全生命周期的銷售業績、品牌故事、競品分析等數據,賦能生產及業務決策,實現數據價值的最大化。
一般來說,大體量的企業想要保持持續增長,往往需要依靠大量、有效的數據輸出,進而實現智慧決策。很多企業出於 IT 建設能力的限制,導致很多事情沒法做,但通過湖倉一體架構,讓之前被限制的數據價值得以充分發揮,如果企業能夠在注重數據價值的同時,並有意識地把它保存下來,企業就完成了數字化轉型的重要命題之一。
我們也有理由相信,隨著企業數字化轉型加速,湖倉一體架構也會有更為廣闊的發展空間。
6. 以原始格式存儲對數據類型大小有影響嗎
以原始格式存儲對數據類型大小沒有影響。數據湖可以使用其原生格式存儲任何類型的數據,沒有大小限制。數據湖的開發主要是為了處理大數據量,因此他們擅長處理非結構化數據。
7. 如何區別資料庫、數據中台、數據湖
數據湖、數據倉庫和數據中台,他們並沒有直接的關系,只是他們為業務產生價值的形式有不同的側重。
一、區別:
數據湖作為一個集中的存儲庫,可以在其中存儲任意規模的所有結構化和非結構化數據。在數據湖中,可以存儲數據不需要對其進行結構化,就可以運行不同類型的分析。
數據倉庫,也稱為企業數據倉庫,是一種數據存儲系統,它將來自不同來源的結構化數據聚合起來,用於業務智能領域的比較和分析,數據倉庫是包含多種數據的存儲庫,並且是高度建模的。
數據中台是一個承接技術,引領業務,構建規范定義的、全域可連接萃取的、智慧的數據處理平台,建設目標是為了高效滿足前台數據分析和應用的需求。數據中台距離業務更近,能更快速的相應業務和應用開發的需求,可追溯,更精準。
二、關系:
數據湖、數據倉庫更多地是面向不同對象的不同形態的數據資產。而數據中台更多強調的是服務於前台,實現邏輯、標簽、演算法、模型的復用沉澱。
數據中台像一個「數據工廠」,涵蓋了數據湖、數據倉庫等存儲組件,隨著數據中台的發展,未來很有可能數據湖和數據倉庫的概念會被弱化。
三、小結:
數據空間持續增長,為了更好地發揮數據價值,未來數據技術趨於融合,同時也在不斷創新。
8. 數據湖和數據倉庫的區別是什麼
數據湖就是一個集中存儲資料庫,用於存儲所有結構化和非結構化數據。數據湖可用其原生格式存儲任何類型的數據,這是沒有大小限制。
數據倉庫是位於多個資料庫上的大容量存儲庫。它的作用是存儲大量的結構化數據,並能進行頻繁和可重復的分析。
數據科學家
可能會用具有預測建模和統計分析等功能的高級分析工具。而數據倉庫就是數據倉庫非常適用於月度報告等操作用途,因為它具有高度結構化。在架構中數據湖通常,在存儲數據之後定義架構。使用較少的初始工作並提供更大的靈活性。
在數據倉庫中存儲數據之前定義架構。這需要你清理和規范化數據,這意味著架構的靈活性要低不少。
其實數據倉庫和數據湖是我們都需要的地方,數據倉庫非常適用於業務實踐中常見的可重復報告。當我們執行不太直接的分析時,數據湖就很有用。
9. 數據湖和數據倉庫的區別是什麼
數據湖和數據倉庫的區別:
一個數據湖專門用於存儲任何形式的數據,即結構化或非結構化。它還使我們能夠以其本機格式保存大量原始數據,直到需要它為止。該術語主要與面向Hadoop的對象存儲相關。在這種情況下,首先將組織的數據載入到Hadoop平台,然後再載入到業務分析。進一步,將數據挖掘工具添加到該數據中,該數據挖掘工具通常位於商用計算機的Hadoop群集節點中。
數據倉庫
而數據倉庫收集來自多個源(內部或外部),該數據被進一步用於商業目的優化的數據。以這種形式,數據大部分是結構化的,並來自關系資料庫。但是,也可以收集非結構化數據,但是大多數情況是要收集結構化數據。
數據湖與數據倉庫:兩者都使用兩種不同的策略來存儲數據。
兩者之間的主要區別之一是,在數據湖中沒有特定的預定架構,它可以輕松容納結構化或非結構化數據。數據湖的概念僅在2000年才開始興起,國內數據湖的概念也是在2020年才由阿里在雲棲大會上提出並展露鋒芒,數據湖展示了如何存儲數據以及如何同時節省成本。
但數據倉庫卻不是這種情況,數據倉庫通常由確定的架構組成並處理主數據。
數據湖和數據倉庫在處理非結構化數據方面足夠有效,但是隨著生成的數據量的增加,存儲所有數據可能會變得昂貴。除此之外,這很耗時並且需要相當長的時間來進行分析和存儲。數據湖之所以走到最前沿的眾多原因之一。它可以最有效,最經濟地處理非結構化數據。
作為數據分析專業人士,您需要了解以下兩個術語之間的區別:
1.數據湖中使用的像大數據這樣的技術是一個新概念,但是,像數據倉庫這樣的概念已經使用了數十年。
2.在數據湖中,無論其結構如何,都可以存儲數據,並以原始形式保存數據,直到需要使用為止。但是在數據倉庫中,提取的數據組成了定量指標,其中對數據進行了清理和轉換。
3.數據湖具有存儲所有數據的能力,可以存儲當前數據和將來需要使用的數據。在數據倉庫中,需要花費大量時間專門用於分析多個源。
4.數據湖可以收集所有類型的數據,包括結構化和非結構化。但是,在數據倉庫中,它會收集結構化數據並將其按照專門為數據倉庫設計的架構進行排列。
5.數據湖包含所有類型的數據,並促使用戶在處理和清除數據之前訪問數據。數據倉庫提供對預定義數據類型的預定義問題的見解。
隨著非結構化數據的不斷增長,數據湖的興起將變得越來越流行。但是,仍然需要數據倉庫。因此,根據您的項目,您可能需要選擇最佳的存儲解決方案。
10. 估值380億美元的數據湖引領者,Databricks是如何發展壯大的
阿爾法公社
重度幫助創業者的天使投資基金
Databricks是一家正在崛起的企業軟體巨頭。2021年,它連續獲得兩輪10億美元級別的大額融資,估值躍升到380億美元,它在數據和人工智慧領域具有全球雄心。
Databricks是一個非典型的創業故事,它由七位聯合創始人創辦,其中大部分是學者。它從Spark開源項目起步,現在引領了數據湖範式,這將加速其與主要競爭對手Snowflake的競爭。
本文是投資人Matt Turck與Databricks聯合創始人兼CEO Ali Ghodsi的對話實錄,Matt Turck在2015年就與Databricks的聯合創始人Ion Stoica有過對話,對於Databricks的情況相當熟悉。在本文中Ali Ghodsi將透露Databricks從一個開源項目到大型公司的成長經歷,以及在團隊,產品,進入市場,擴張等方面積累的洞見,Enjoy。
科學家創始人們推動Databricks起步
Matt Turck: 我們談一下Databricks的起步,AMPLab、Spark和Databricks,這一切是如何開始的?
Ali Ghodsi: 我們當時正處於人工智慧革新的風口浪尖:Uber剛剛起步,Airbnb、Twitter處於早期,Facebook還不是巨頭。他們聲稱,使用20世紀70年代誕生的機器學習演算法實現了很好的效果。
以當時的常識來想這不可能是真的,我們覺得那些演算法不可能Work,但他們說,「不,我們得到了非常厲害的結果。」當仔細觀察後,我們的想法被顛覆了——他們確實獲得了驚人的結果。以現代硬體和大量數據為支撐,運用上世紀的演算法依舊可以獲得令人難以置信的產出,我們對此感到震驚。我們想:"需要使之普適化"。例如,在Facebook,他們可以提前檢測到情侶分手,如果地球上的每個企業都有這種技術,這會對現有商業產生巨大影響。這就是AMPLab的起點。
Matt Turck: 當時AMPLab的Spark是怎麼來的?
Ali Ghodsi: 圖靈獎得主之一戴夫·帕特森當時是伯克利的教授,他非常相信人們應該聚在一起,打破孤島。伯克利的教授們放棄了自己的私人辦公室,和所有學生一起在巨大的開放區域辦公。
他們試圖解決的機器學習問題以當時的技術背景來說是很有挑戰性的。AMPLab里做機器學習的人,做數學的人,不得不使用Hadoop,數據的每一次迭代都必須運行MapRece,這樣光是做一次迭代就需要20到30分鍾。所以當時我們決定:"聯合起來,建立一個反應快速的基礎架構。」我們在數據上做了很多迭代。因此,不只是做一次,不只是一個SQL引擎,而是可以做遞歸機器學習的東西,並可以極快地找到數據中的內涵模式。
Matt Turck: Databricks創始故事的特殊之處在於,你們有七、八個聯合創始人。回過頭看,擁有這樣一個大的創始團隊利與弊是什麼?
Ali Ghodsi: 肯定是有利有弊的。如果你知道如何真正讓由七個人組成的緊密小組真正信任對方,並在一起工作得很好,就會發生令人驚訝的事情。我認為Databricks的成功很大程度上歸因於我們互相的信任。
創業早期的創始人,即使只有兩個人,他們也會爭吵,然後可能會在一兩年內分裂,這就是問題所在。我們找到了一種方法,使大家真正了解對方的長處和短處,使這段創業旅程成為一種樂趣。
人們總說CEO是地球上最漫長的工作,我從來沒有這種感覺。我有很多聯合創始人和我在一起,他們一直都在,這對我們來說絕對是一種力量。如果我們沒有這些人,就不會有現在的成就。
從開源項目到公司,
從0到100萬美元ARR
Matt Turck: 你們是如何從學術性的開源項目(Spark)變成一家公司,然後從0做到1000萬美元ARR的?這背後是否有任何決定性的時刻,或其他特別的增長手段?
Ali Ghodsi: 我們從0到100萬美元ARR的旅程非常特別,與其他的旅程非常不同。我們經歷了三個階段,第一個階段是PMF(產品與市場契合)階段,當你有了一個產品,你能找到它與用戶之間的契合點么?這對任何公司都存在挑戰。
你一旦你找到PMF,接下來就得弄清楚什麼是能將該產品與市場聯系起來的渠道,你的產品或許符合市場需求,但怎麼通過渠道銷售呢?事實上,我們一開始在這方面走了彎路,花了幾年時間才確定正確的發展方向。在這幾年裡,為了弄清楚Databricks的正確模式我們進行了大量的實驗。
接下來,讓我們從產品開始,然後再談談渠道。
產品方面,我們有在伯克利建立的開源技術,但這不一定符合大企業的需要,因為在大企業,他們沒有來自伯克利的博士。因此,我們需要為他們大簡化問題,我們開始在雲中託管它,但事實證明,即使是雲版本對他們來說也太復雜了,無法使用。
因此,我們開始與用戶一起進行迭代。我們在這之後削減了很多特性和功能,甚至可以說重新構建了一個產品。我們問自己:"如果我們知道現在的一切,回去再做一次,會怎麼做?"
於是,我們重新做了另一個開源項目,Delta,你可以把它看作Spark為大型企業所做的非常簡單和自動化的軟體。當我們在伯克利時,我們的產品設想是提供盡可能多的功能和設置項,因為可能是一個博士在用它做研究。但當我們把產品在企業中推廣時,我們意識到不是每個人都有博士學位,大家不知道如何使用它。這就是早期我們遇到的問題。在渠道方面,錯誤在於,我們在早期真的是非常相信這種產品主導的增長。
關於銷售,當時我們的設想是,有了一個簡化的產品,我們把它做成基於雲的產品,就會有人會使用它,會為它刷信用卡,我們會非常成功。我們可以僱用銷售人員,給年輕人打電話進行推銷,我們不會僱傭企業的銷售人員。我們更喜歡這種模式,它更便宜,更簡單。
但那是一個錯誤。你不能憑空選擇你的渠道。你有一個產品和相應的市場,必須找到正確的渠道來連接它們。
Databricks如何開發產品,
數據倉庫VS數據湖
Matt Turck: 我們一會再繼續談進入市場。現在讓我們先談談產品,我在Databricks觀察到的令人著迷的事情之一是,你們發布新產品並將其轉化為一個平台的速度。從Spark到機器學習到AI工作台再到Lakehouse,請向我們介紹一下產品的思路——一個產品如何導致另一個產品的出現。
Ali Ghodsi: 我們從Spark開始起步,它讓用戶可以訪問所有數據;於是人們開始在企業中創建資料庫,並在其中積累了大量數據。但過了一段時間,企業高管會問:「我不在乎我們獲得和存儲了多少數據,你能用這些數據為我做什麼? 」 這就是我們試圖建立其他應用程序的原因。
起初我們的收入很少,然後我們意識到它太復雜了,有太多的選項和配置。我們就問自己:"如果必須重做,必須簡化,會做什麼?"這種思路後的第一個創新是Delta,它重新定義了Spark,以一種真正企業友好的簡化方式。但最初我們沒有將它開源。
接下來,我們想:「如果拓寬資料庫的用途,不僅僅是數據科學家和機器學習工程師,而是真正廣泛的用例,應該怎麼做? 」 這就是我們開始重視商業分析師的原因。
商業分析師習慣於像Tableau那樣的操作軟體。如果他們想做一些更復雜的事情,只能使用SQL。因此,我們在四年前開始致力於構建數據倉庫能力,把它建立在我們稱為Lakehouse的核心基礎設施中,然後在前年較大規模的推廣。
我們的秘訣是:看企業的問題,弄清楚那是什麼,通過實際的客戶問題來深入了解它,把問題帶回來,解決這個問題,在雲中與客戶快速迭代。一旦它有了產品的市場適應性,就把它開放出來。建立巨大的開源勢頭,幾乎像一個B2C病毒式的形式。然後,用基於雲的SaaS版本將其變現。
這是受AWS的啟發,當創立Databricks時,我們認為AWS是地球上最好的雲計算開源公司。他們本身不進行開發,其盈利模式基於開源軟體,託管它並在上面賺很多錢。我們只是在這一點上進行了調整和演變。我們認為:「這是一個偉大的商業模式。我們將在雲上託管開源軟體。但不同的是,我們將自己創建開源軟體。這樣一來,就獲得了相對於其他任何想做同樣事情的人的競爭優勢。 」 否則,任何人都可以建立任何開源軟體並在雲中託管它。
Matt Turck: 接下來,讓我們從Lakehouse開始,了解一下數據湖和數據倉庫的演變,以及Lakehouse是如何在這兩個領域中取得最好的成績。
Ali Ghodsi: 這很簡單。人們在數據湖裡存儲所有的數據:數據集,視頻、音頻、隨機文本,這既迅速又便宜。利用各種各樣的數據集,你可以基於數據湖進行AI創新,AI與數據湖密切相關。如果你想做BI,而不是AI,你就使用數據倉庫,數據倉庫和BI有一個單獨的技術堆棧,但是它其實和AI一樣,有很多同樣的數據集。
BI用於回答過去的問題,比如上個季度的收入是多少;AI用來問關於未來的問題,哪些客戶將會回來?所以,這意味著需要兩個獨立的堆棧,你必須有兩個數據副本,而且你必須管理它們,這造成了很多復雜性。但當年的FAANG(矽谷幾個頂尖互聯網巨頭的聯合簡稱)可不是這樣做的,他們有一個統一的平台。所以,我們的想法是把這兩個統一成一個平台—Lakehouse、人工智慧數據湖--提出關於未來的問題。這兩者的結合將使企業能夠更快地發展。它是數據工程師、數據科學家和商業分析師的平台,這樣他們就可以在整個企業內一起工作。所以這是一個用於AI和BI的數據平台。
Matt Turck: 實現這一點靠的是什麼重大的技術突破么?是Delta Lake?還是Iceberg?那是如何工作的?
Ali Ghodsi: 是的, 我認為有四個技術突破是在2016、2017年同時發生的,Hudi、Hive ACID、Iceberg、Delta Lake,我們貢獻的是Delta Lake。問題是這樣的,在數據湖裡有人們收集了所有的數據,這些數據非常有價值,但很難對它們進行結構化查詢。之前的傳統方式是利用SQL資料庫,然後應用在BI領域。因此,你需要一個單獨的數據倉庫。
為什麼這么難?因為數據湖是為大數據、大數據集建立的,它並不是為真正的快速查詢而建立的。它太慢了,而且沒有任何方法來結構化數據,並以表格的形式展現數據,這就是問題所在。那麼,你如何把像一個大的數據塊存儲的東西,變成一個數據倉庫?這就是這些項目的秘訣。我們找出了解決這些數據湖效率低下的方法,並使用戶能夠直接從數據湖的數據倉庫中獲得相同的價值。
Matt Turck: 這種方法有什麼取捨嗎?
Ali Ghodsi: 事實上並非如此,我們做到了魚與熊掌可以兼得。我知道這聽起來很瘋狂,但試試就是如此。我們減少了很多在80、90年代由數據倉庫供應商發明的技術,調整它們,使它們在數據湖上工作。你可以問:「為什麼這在10或15年前沒有發生? 」 因為開放標準的生態系統並不存在,它是隨著時間的推移慢慢出現的。所以,它從數據湖開始,然後有一個很大的實際技術先導突破。我們在這里談論的,是數據的標准化格式。他們被稱為Parquet和ORC,但這些是數據格式,行業要將所有的數據集標准化。
這些類型的標准化步驟是需要的,以獲得數據湖的突破。這有點像USB,一旦你有了它,你就可以把任何兩個設備相互連接起來。所以,正在發生的事情是,開源領域的一個生態系統正在出現,在那裡你可以在數據湖的範式中做所有的分析。最終,你將不需要所有這些自八十年代以來的專有舊系統,包括數據倉庫和其他類似系統。
Matt Turck: 我會針對這個再問問題,業界有很多關於Snowflake和Databricks之間即將發生大沖突的議論,作為這個領域的兩個巨大的公司,你對未來的看法是,數據湖最終成為範式,然後隨著時間的推移,其他一切都被吸收?還是你認為未來更多的是混合,用戶可以用數據倉庫做某些事情,數據湖做其他事情?
Ali Ghodsi: 我將從兩個方面回答這個問題。首先,人們把這說成是零和博弈,但你認為谷歌雲會淘汰AWS和微軟雲,還是AWS會淘汰其他雲?沒有人這么認為,對吧。他們會共存,都將獲得成功。
數據空間是巨大的。將會有很多供應商參與其中。我認為Snowflake將獲得成功,他們現在有一個偉大的數據倉庫,可能是市場上最好的數據倉庫。而它肯定會與Databricks共存。事實上,Databricks與Snowflake共存於可能70%的客戶中。我認為這種情況將繼續存在,人們將使用數據倉庫進行商業智能。
但是,如果長期來看,我認為數據湖的範式將獲勝。為什麼?因為數據太重要了,人們所有的數據都在這些數據湖中,而且更多的數據正在進入數據湖中。公有雲計算供應商也有動力推動更多的動力讓人們把數據存到他們的數據湖中,因為這對他們來說是既得利益。因此,任何使其真正有價值的解決方案,都將是未來的趨勢。所以,我認為從長遠來看,越來越多的人將傾向於這種數據湖的範式。
為什麼Databricks能夠不斷產出創新產品?
Matt Turck: 我想了解你的產品和工程團隊是如何組織的?對於一家公司,能夠在第一個產品成功的基礎上做第二個產品是非常罕見的。但在這里,我們正在談論,如何成功的做出三個、四個、五個不同的產品。你的公司是如何管理好團隊組織結構和其他資源,以不斷創新?
Ali Ghodsi: 我們從創立Databricks時,就在試圖找到這個問題的答案。我們不想靠一個單一的產品生存。當我們有了Spark,卻並沒有把它當成公司的名字,因為如果Spark變得落後了,我們就會把它迭代掉,然後繼續向前,我們想不斷找到數據的最佳答案。那麼如何不斷的有創新產品出現?我認為非常重要的是,要把創新和現有的現金流業務分開。
有一本關於這個問題的好書,叫Zone To Win。書中談到,當你創造出一些新東西時,你需要快速迭代。你需要讓工程師直接與客戶交談,甚至不一定要讓產品經理來做,快速的創新迭代是最要緊的。而在在企業端,你需要一個慢得多的周期來迭代。
另外,所有的工程和產品團隊組織被分成兩個不同的部分。一部分專注於企業客戶需要的東西:加密,安全,認證,穩定性等。另一部分則專注於創新,而且你應該把這些分開,分別的投入資源,否則前者(企業那部分)將得到所有的資源。你會傾向於不斷地建立那些擴大你的TAM的東西。TAM擴展實際上是安全能力,它本身並沒有任何創新。
我認為,有些公司已經做得很好了,比如AWS,它不是一招鮮,亞馬遜本身也不是一招鮮,它不斷有新的創新。所以我們希望我們的公司也是這樣的,因此取名為Databricks。
Matt Turck: MLflow Delta Lake, Koalas。這屬於創新陣營還是商業陣營的子層?
Ali Ghodsi: 這些都是創新陣營。當然,其中一些項目,當他們不那麼創新的時候,像Spark,會轉移到維護方面,我們通常也會移動核心人員。因此,實際上是同一個人或同一撥人在不斷地進行創新。我們試圖培養更多的創新者,但我們試圖把那種已經真正有訣竅破解從0到1的人轉移到下一個問題,然後把現有的項目移交給其他人去運行,比方說Spark,這已經是一個巨大的成功項目。
當我們把已經創造出東西的人轉移到別的地方去創造下一個東西,對於一個優秀人才,獲得這種責任是一個很大的職業提升。而我們也會發現誰是擅長從0到1人。我們實際上是在做實驗,給研發部門的人一個機會去試驗從0到1的東西,他們並不總是成功。這需要幾次嘗試,直到他們成為真正擅長的人。所以你必須慎重考慮這種高失敗的策略。
開源的商業模式,有何優越性?
Matt Turck: 如果你今天要再開一家企業軟體公司,你會先去開源代碼嗎?
Ali Ghodsi: 是的,我認為它很優越。我認為如果你從進化的角度來考慮,它在進化上比以前的商業模式要好。為什麼我這么說?因為任何專有的軟體公司都是成熟的,可以被開源的競爭者破壞。因此,任何專有的東西都可以立即被顛覆,就像Windows被Linux顛覆一樣。我的意思是,那是最先進的東西,是真正復雜的技術操作系統,對嗎?你不會認為大學里的某個傢伙會發明,然後成為工業的標准。任何專有軟體都是成熟的,可以進行這樣的顛覆。問題是,你能靠它賺錢嗎?在紅帽和所有這些做支持網路服務的公司之前,這真的很難,直到AWS破解了商業模式的密碼。
商業模式是我們為你運行軟體,你從我們這里租用它。這是一個優越的商業模式,因為你實際上可以擁有大量的IP,這是很難復制的。所以我認為我創辦的下一家公司將是這樣的。如果你要問我,我的下一次創業會在哪個領域開始,我會在人工智慧方面做什麼?我會認為我們現在在人工智慧方面的應用還很淺層,尤其是操作性的人工智慧。人工智慧未來將會被嵌入到各個地方。我知道這很老套。馬克·安德森說,軟體正在吞噬世界。我們真的相信,人工智慧將吞噬所有的軟體。你擁有的任何軟體,人工智慧都會悄悄進入,就像軟體悄悄進入你的 汽車 、冰箱和恆溫器一樣。所以這真的是早期的事情,我認為任何加入或創辦人工智慧領域公司的人,他們還在早期,他們有機會創辦下一個谷歌。所以這就是我想做的。
Matt Turck: 我們談到了開源,也繼續談進入市場的問題,在這個階段,作為一個非常晚期的創業公司。開源在進入市場的過程中處於什麼位置?你們進入市場的策略是自下而上與自上而下?你們如何分配BDR小組與AE的工作,讓他們協作而不是互相拖後腿?
Ali Ghodsi: Databricks是混合模式,我們是自下而上與自上而下在同一時間結合。一開始我們是自下而上,但是也會做自上而下的事情。我們有BDRs和SDRs。這是一個從市場營銷開始的篩選器。
Databricks社區版是完全免費的,你想怎麼用就怎麼用,永遠不需要付錢,而且有完整的功能。但是從這里產生的線索會導入到SDR。因此,這也是一個非常重要的管道。我們一半的線索來自於此,這就是為什麼開源對我們是一個重要的引擎。
現在,我們也有傳統的企業銷售動作,比如給CIO遞名片,一對一的交流,但發生的情況是,開發人員在這些組織中也變得越來越強大。例如,CIO說,我與Databricks的CEO進行了一次很好的談話,我正在 探索 這項技術,但我擔心,這對我們來說是正確的選擇嗎?那家公司的聽眾中會有人說,是的,我使用社區版。我們不需要做6個月的POC。我認識這些人,他們真的非常好,或者我認識他們,他們來自伯克利。我已經使用了這些技術。我去參加了一些聚會等。
因此,這有助於證實用例,你可以消除整個POC,因為他們已經知道它是什麼,而不是像10-20年前那樣,一個銷售人員進來,解釋這個軟體有多棒,但你不能相信他們。因此你就必須去做POC,然後去花時間檢驗這個軟體是不是真的有用。我們不必這樣做,我們可以穿過所有這些層次。因此,我們把自上而下和自下而上結合起來,而這兩方面對於Databricks的成功都是非常必要的。
從創業公司到超級獨角獸,
領導者的修煉之路
Matt Turck: 你已經把一家小型創業公司帶成了超級獨角獸,很快還會上市。你是如何讓自己完成角色轉變的,從一個講願景,講故事的人,變成管理一個全球組織?
Ali Ghodsi: 其實就是如何找到你可以信任的具有領導力的幫手,並和他們建立更深的信任。我可以把我大部分時間都花在這上面,而公司能夠繼續正常運行。我有運行良好的銷售團隊,市場營銷團隊,工程團隊,我卻不需要自己直接參與其中,因為我找到了適合領導這些部門的領導者,並且花了很多時間與他們建立起信任。
這是你在早期就要開始准備的事情,早期時,你的組織規模小,你可以參與到每個環節,如臂使指。但是當團隊規模擴展到150-200人直到超過鄧巴數。你會感覺自己完全被淹沒了。因此你必須找到可以信任的正確的領導人,而且要找到自己與組織溝通的方法,因為現在不是直接溝通,而是通過領導層間接溝通,所以幫助你與團隊組織溝通的人就特別重要。
Matt Turck: 你如何找到他們?你是偏向在內部提拔人才,還是從外部引入已經獲得成功的高管,哪一個效果更好?你是如何處理的?
Ali Ghodsi: 要找到與公司文化相適應的、你能與之建立強大信任的高管是非常困難的,我認為不應該排除任何選項。如果能夠從內部提拔人,那很好,但是如果只是內部晉升,你就不能獲得市場上已經存在的成功經驗,這種經驗可能是超級有價值的。
如果我們尋找外部的高管,他必須經歷過我們現在所處的階段,有實戰的經驗。不是說他必須從零開始創建一個估值幾百億的公司,而是建立和操作過這種階段公司的工程等相應部門,他是否在這個過程中有第一性思考,有自己的沉澱。我認為能力和智商還是非常重要的。
文化看起來是個很復雜的東西,但是對與我,會把它分解成一連串問題:我可以和這個人相處嗎?願意每天花10個小時和他在一起工作么?當事情變得非常棘手和困難的時候,我們能一起去解決問題么?所以你要做的就是花大量時間與這個人相處,然後問自己是否喜歡他們,就像婚姻一樣。你可以問他們一些困難的問題,與他們爭論或者聽取他們的意見,直到確定這就是正確的人。如果你感覺到自己無法和某個人一起好好工作,那他就可能是文化不匹配。
本文編譯整理自Matt Turck個人博客,略有刪節。
關於阿爾法公社
阿爾法公社(Alpha Startup Fund)是中國領先的早期投資基金,由曾帶領公司在納斯達克上市的許四清和前創新工場聯合管理合夥人蔣亞萌在2015年共同創立。
阿爾法公社基金的三大特點是系統化投資、社交化創業者社區運營和重度產業資源加速成長。專注在半導體、企業服務軟體、人工智慧應用、物聯網技術、金融 科技 等 科技 創新領域進行早期投資。目前已經在天使輪投資了包括白山雲 科技 、領創集團(Advance Intelligence Group)、Zenlayer、帷幄 科技 、所思 科技 等為數眾多的優秀項目。