1. “数据湖篇”一文带你深入理解数据湖
数据湖相当于一个汇集着来自各个异构数据源的 原生态数据,不经过加工清洗数据 ,数据的格式也五花八门, 结构化和半结构化和非结构化的数据 都能够被数据湖管理起来。
那么就引申出 数据湖的特点 :
数据湖和数据仓库可以用来互补,数据湖可以在非结构化数据处理方面扩展业务能力。对于许多公司来说,通过数据湖来增强现有的数据仓库,已经被证明是一种高效的方式
数据湖的本质 ,是由 数据存储架构+数据处理工具 组成的解决方案。
数据架构存储 :要求要有足够强大的扩展性和可靠性,才能存得下和存得久要入湖的数据,比如AmazonWebServices亚马逊云科技的S3云对象存储。
数据处理工具 :主要解决2类问题,一类是把数据移动到湖里,一类是管理湖里的数据。
总结:数据湖不只是个“囤积”数据的“大水坑”,除了用存储技术构建的湖底座以外,还包含一系列的数据入湖、数据出湖、数据管理、数据应用工具集,共同组成了数据湖解决方案。
数据沼泽 :各式各样的数据都往"湖里倾倒",缺乏元数据管理,最终会把好好的数据湖变成了数据沼泽,导致数据湖中的数据使用困难。
数据重力 :指的是随着数据积累越来越多,则要移动它们就越来越难,这便是所谓的数据重力。
Lake House,即所谓的 湖仓一体架构 , 数据湖和数据仓库相结合发挥作用,实现“湖里”和“仓里”的数据/元数据能够无缝打通,并且“自由”流动 。比如湖里的“新鲜”数据可以流到仓里,甚至可以直接被数仓使用,而仓里的“不新鲜”数据,也可以流到湖里,低成本长久保存,供未来的数据挖掘使用。
Lake House不仅要把湖、仓打通,还要克服“数据重力”,让数据在这些服务之间按需来回移动:入湖、出湖、环湖……
智能湖仓的设计, 采用各下游组件都“环湖而造”的理念 ,既可以直接操纵湖内数据,也可以从湖中摄取数据,还可以向湖中回注数据,同时环湖的服务彼此之间也可以轻松交换数据。
上面这个六层架构,从数据源定义、数据摄取和入湖入仓,到湖仓打通与集成,再到数据出湖、数据处理和数据消费,一气呵成,各种云上数据服务无缝集成在一起,创新了未来一个新的大数据解决方案。
2. 什么是大数据存储管理
1.分布式存储
传统化集中式存储存在已有一段时间。但大数据并非真的适合集中式存储架构。Hadoop设计用于将计算更接近数据节点,同时采用了HDFS文件系统的大规模横向扩展功能。
虽然,通常解决Hadoop管理自身数据低效性的方案是将Hadoop 数据存储在SAN上。但这也造成了它自身性能与规模的瓶颈。现在,如果你把所有的数据都通过集中式SAN处理器进行处理,与Hadoop的分布式和并行化特性相悖。你要么针对不同的数据节点管理多个SAN,要么将所有的数据节点都集中到一个SAN。
但Hadoop是一个分布式应用,就应该运行在分布式存储上,这样存储就保留了与Hadoop本身同样的灵活性,不过它也要求拥抱一个软件定义存储方案,并在商用服务器上运行,这相比瓶颈化的Hadoop自然更为高效。
2.超融合VS分布式
注意,不要混淆超融合与分布式。某些超融合方案是分布式存储,但通常这个术语意味着你的应用和存储都保存在同一计算节点上。这是在试图解决数据本地化的问题,但它会造成太多资源争用。这个Hadoop应用和存储平台会争用相同的内存和CPU。Hadoop运行在专有应用层,分布式存储运行在专有存储层这样会更好。之后,利用缓存和分层来解决数据本地化并补偿网络性能损失。
3.避免控制器瓶颈(Controller Choke Point)
实现目标的一个重要方面就是——避免通过单个点例如一个传统控制器来处理数据。反之,要确保存储平台并行化,性能可以得到显着提升。
此外,这个方案提供了增量扩展性。为数据湖添加功能跟往里面扔x86服务器一样简单。一个分布式存储平台如有需要将自动添加功能并重新调整数据。
4.删重和压缩
掌握大数据的关键是删重和压缩技术。通常大数据集内会有70%到90%的数据简化。以PB容量计,能节约数万美元的磁盘成本。现代平台提供内联(对比后期处理)删重和压缩,大大降低了存储数据所需能力。
5.合并Hadoop发行版
很多大型企业拥有多个Hadoop发行版本。可能是开发者需要或是企业部门已经适应了不同版本。无论如何最终往往要对这些集群的维护与运营。一旦海量数据真正开始影响一家企业时,多个Hadoop发行版存储就会导致低效性。我们可以通过创建一个单一,可删重和压缩的数据湖获取数据效率
6.虚拟化Hadoop
虚拟化已经席卷企业级市场。很多地区超过80%的物理服务器现在是虚拟化的。但也仍有很多企业因为性能和数据本地化问题对虚拟化Hadoop避而不谈。
7.创建弹性数据湖
创建数据湖并不容易,但大数据存储可能会有需求。我们有很多种方法来做这件事,但哪一种是正确的?这个正确的架构应该是一个动态,弹性的数据湖,可以以多种格式(架构化,非结构化,半结构化)存储所有资源的数据。更重要的是,它必须支持应用不在远程资源上而是在本地数据资源上执行。
不幸的是,传统架构和应用(也就是非分布式)并不尽如人意。随着数据集越来越大,将应用迁移到数据不可避免,而因为延迟太长也无法倒置。
理想的数据湖基础架构会实现数据单一副本的存储,而且有应用在单一数据资源上执行,无需迁移数据或制作副本
8.整合分析
分析并不是一个新功能,它已经在传统RDBMS环境中存在多年。不同的是基于开源应用的出现,以及数据库表单和社交媒体,非结构化数据资源(比如,维基网络)的整合能力。关键在于将多个数据类型和格式整合成一个标准的能力,有利于更轻松和一致地实现可视化与报告制作。合适的工具也对分析/商业智能项目的成功至关重要。
9. 大数据遇见大视频
大数据存储问题已经让人有些焦头烂额了,现在还出现了大视频现象。比如,企业为了安全以及操作和工业效率逐渐趋于使用视频监控,简化流量管理,支持法规遵从性和几个其它的使用案例。很短时间内这些资源将产生大量的内容,大量必须要处理的内容。如果没有专业的存储解决方案很可能会导致视频丢失和质量降低的问题。
10.没有绝对的赢家
Hadoop的确取得了一些进展。那么随着大数据存储遍地开花,它是否会成为赢家,力压其它方案,其实不然。
比如,基于SAN的传统架构在短期内不可取代,因为它们拥有OLTP,100%可用性需求的内在优势。所以最理想的办法是将超融合平台与分布式文件系统和分析软件整合在一起。而成功的最主要因素则是存储的可扩展性因素。
3. 数据湖是什么东东 数据湖的四个最佳实践
数据湖听起来很简单:
把数据或信息汇集到一个结合处理速度和存储空间的大数据系统――Hadoop集群或内存解决方案,那样业务部门就能访问数据,获取新的洞察力。
不过,与IT行业的许多技术一样,现实比梦想困难得多。
4. 大数据分析给企业带来哪些挑战
IT源系统的多样性
存储数据是一个复杂的过程,维护时会增加并发症。财富500强企业平均拥有数百个企业IT系统。由于格式不同,跨数据源的引用不匹配以及重复,大多数文件处于混乱状态。
管理高频数据
实时数据流。存在诸如数据审查之类的问题,例如,对于海上低压压缩机的排气温度的读取本身仅是有限的值。但是,结合环境温度,风速,压缩机泵转速,以前的维护操作历史和维护日志,可以为海上钻机操作员创建有价值的警报系统。
与数据湖一起运作
数据湖是一个集中式存储库,可以存储任何规模的结构化和非结构化数据。将组织的所有数据放在一个窗口中不会带来任何好处。它不仅使数据位于孤立的企业系统中,还激起了数据的复杂性。
组织各种数据内容
无法保证数据采用单一格式。公司通过图像,文件,视频,文档等收集数据。但是,它们被放在称为大数据的同一个屋檐下。因此,在进行分析之前,很难区分它们并将其置于不同的渠道,并且涉及许多机制。另一个麻烦是数据的清晰度,有些文件甚至不符合最低清晰度要求。
采用新兴的AI工具
人工智能工具正在发芽,在管理大数据时,它们非常有用。企业IT和分析团队需要提供工具,使具有不同水平的数据科学能力的员工能够使用大型数据集并使用统一的映像执行预测性分析。
关于大数据分析给企业带来哪些挑战,青藤小编就和您分享到这里了。如果您对大数据工程有浓厚的兴趣,希望这篇文章可以为您提供帮助。如果您还想了解更多关于数据分析师、大数据工程师的技巧及素材等内容,可以点击本站的其他文章进行学习。
5. 滴普科技:为什么越来越多的企业会选择“湖仓一体”
数据库行业正走向分水岭。
过去几年,全球数据库行业发展迅猛。2020年,Gartner首次把数据库领域的魔力象限重新定义为Cloud DBMS,把云数据库作为唯一的评价方向;2021年,Gartner魔力象限又发生了两个关键的变化: 1、Snowflake和Databricks两个云端数据仓库进入领导者象限;2、放开了魔力象限的收入门槛限制,SingleStore、Exasol、MariaDB、Couchbase等数据库新势力首次进入榜单 。
某种程度上,这种变化的背后,暗示着全球数据库已经进入发展的黄金时代,也是一众新兴势力的加速崛起之年。其中,最为典型的例子是Snowflake和Databricks经常隔空喊话,前者是云端数仓的代表玩家,去年继续保持了1倍以上的业务增长;后者因推出“湖仓一体”,估值一路飙升至360亿美金,两者之争,其实是数据库新旧架构之争。
随着企业数字化驶入深水区,对于数据使用场景也呈现多元化的趋势,过去容易被企业忽略的数据,开始从幕后走到台前,如何为众多场景选择一款合适的数据库产品,已经成了很多CIO和管理者的一道必答题。 但有一点可以确定的是,过去的数据库已难以匹配眼下日益增长的数据复杂度需求,基于扩展性和可用性划分,分布式架构突破单机、共享、集群架构下的数据库局限,近些年发展态势迅猛。 为此,这篇文章我们将主要分析:
1、数据仓、数据湖、湖仓一体究竟是什么?
2、架构演进,为什么说湖仓一体代表了未来?
3、现在是布局湖仓一体的好时机吗?
01:数据湖+数据仓 湖仓一体
在湖仓一体出现之前,数据仓库和数据湖是被人们讨论最多的话题。
正式切入主题前,先跟大家科普一个概念,即大数据的工作流程是怎样的?这里就要涉及到两个相对陌生的名词: 数据的结构化程度 和 数据的信息密度 。前者描述的是数据本身的规范性,后者描述的是单位存储体积内、包含信息量的大小。
一般来说,人们获取到的原始数据大多是非结构化的,且信息密度比较低,通过对数据进行清洗、分析、挖掘等操作,可以排除无用数据、找到数据中的关联性,在这个过程中,数据的结构化程度、信息密度也随之提升,最后一步,就是把优化过后的数据加以利用,变成真正的生产资料。
简而言之,大数据处理的过程其实是一个提升数据结构化程度和信息密度的过程。 在这个过程中,数据的特征一直在发生变化,不同的数据,适合的存储介质也有所不同,所以才有了一度火热的数据仓库和数据湖之争。
我们先来聊聊数据仓库,它诞生于1990年,是一个面向主题的、集成的、相对稳定的、反映 历史 变化的数据集合,主要用于支持管理决策和信息的全局共享。 简单点说,数据仓库就像是一个大型图书馆,里面的数据需要按照规范放好,你可以按照类别找到想要的信息 。
就目前来说,对数据仓库的主流定义是位于多个数据库上的大容量存储库,它的作用在于存储大量的结构化数据,为管理分析和业务决策提供统一的数据支持,虽然存取过程相对比较繁琐,对于数据类型有一定限制,但在那个年代,数据仓库的功能性已经够用了,所以在2011年前后,市场还是数据仓库的天下。
到了互联网时代,数据量呈现“井喷式”爆发,数据类型也变得异构化。受数据规模和数据类型的限制,传统数据仓库无法支撑起互联网时代的商业智能,随着Hadoop与对象存储的技术成熟,数据湖的概念应用而生,在2011年由James Dixon提出。
相比于数据仓库,数据湖是一种不断演进中、可扩展的大数据存储、处理、分析的基础设施。 它就像一个大型仓库,可以存储任何形式(包括结构化和非结构化)和任何格式(包括文本、音频、视频和图像)的原始数据,数据湖通常更大,存储成本也更为廉价 。但它的问题也很明显,数据湖缺乏结构性,一旦没有被治理好,就会变成数据沼泽。
从产品形态上来说,数据仓库一般是独立标准化产品,数据湖更像是一种架构指导,需要配合着系列周边工具,来实现业务需要。换句话说,数据湖的灵活性,对于前期开发和前期部署是友好的;数据仓库的规范性,对于大数据后期运行和公司长期发展是友好的,那么,有没有那么一种可能,有没有一种新架构,能兼具数据仓库和数据湖的优点呢?
于是,湖仓一体诞生了。 依据DataBricks公司对Lakehouse 的定义,湖仓一体是一种结合了数据湖和数据仓库优势的新范式,在用于数据湖的低成本存储上,实现与数据仓库中类似的数据结构和数据管理功能。湖仓一体是一种更开放的新型架构,有人把它做了一个比喻,就类似于在湖边搭建了很多小房子,有的负责数据分析,有的运转机器学习,有的来检索音视频等,至于那些数据源流,都可以从数据湖里轻松获取。
就湖仓一体发展轨迹来看,早期的湖仓一体,更多是一种处理思想,处理上将数据湖和数据仓库互相打通,现在的湖仓一体,虽然仍处于发展的初期阶段,但它已经不只是一个纯粹的技术概念,而是被赋予了更多与厂商产品层面相关的含义和价值。
这里需要注意的是,“湖仓一体”并不等同于“数据湖”+“数据仓”,这是一个极大的误区,现在很多公司经常会同时搭建数仓、数据湖两种存储架构,一个大的数仓拖着多个小的数据湖,这并不意味着这家公司拥有了湖仓一体的能力,湖仓一体绝不等同于数据湖和数据仓简单打通,反而数据在这两种存储中会有极大冗余度。
02:为什么说湖仓一体是未来?
回归开篇的核心问题:湖仓一体凭什么能代表未来?
关于这个问题,我们其实可以换一个问法,即 在数据智能时代,湖仓一体会不会成为企业构建大数据栈的必选项? 就技术维度和应用趋势来看,这个问题的答案几乎是肯定的,对于高速增长的企业来说,选择湖仓一体架构来替代传统的独立仓和独立湖,已经成为不可逆转的趋势。
一个具有说服力的例证是,现阶段,国内外各大云厂商均陆续推出了自己的“湖仓一体”技术方案,比如亚马逊云 科技 的Redshift Spectrum、微软的Azure Databricks、华为云的Fusion Insight、滴普 科技 的FastData等,这些玩家有云计算的老牌龙头,也有数据智能领域的新势力。
事实上,架构的演进是由业务直接驱动的,如果业务侧提出了更高的性能要求,那么在大数据架构建设的过程中,就需要数据库架构建设上进行技术升级。 以国内数字化企业服务领域成长最快的独角兽滴普 科技 为例,依托新一代湖仓一体、流批一体的数据分析基础平台FastData,基于对先进制造、生物医药、消费流通等行业的深度洞察,滴普 科技 从实际场景切入,为客户提供了一站式的数字化解决方案。
滴普方面认为,“ 在数据分析领域,湖仓一体是未来。它 可以更好地应对AI时代数据分析的需求,在存储形态、计算引擎、数据处理和分析、开放性以及面向AI的演进等方面,要领先于过去的分析型数据库。”以AI应用层面为例,湖仓一体架构天然适合AI类的分析(包括音视频非结构化数据存储,兼容AI计算框架,具有模型开发和机器学习全生命周期的平台化能力),也更适合大规模机器学习时代。
这一点,和趋势不谋而合。
就在前不久,Gartner发布了湖仓一体的未来应用场景预测:湖仓一体架构需要支持三类实时场景,第一类是实时持续智能;第二类是实时按需智能;第三类是离线按需智能,这三类场景将可以通过快照视图、实时视图以及实时批视图提供给数据消费者,这同样是未来湖仓一体架构需要持续演进的方向。
03:现在是布局湖仓一体的好时机吗?
从市场发展走向来看,“湖仓一体”架构是基于技术发展进程的必经之路。
但由于这个新型开放架构仍处于发展早期,国内外企业数字化水平和市场认知的不同,造成了解决方案也存在着较大的差异。在业内投资人看来,“ 虽然美国的企业服务市场比我们成熟的多,也有很多路径可以参考,但中国市场却有着很多中国特色。以对标Databricks的滴普 科技 为例,美国企业服务市场往往卖产品就可以了,但中国大客户群体需要更与客户资深场景深度融合的解决方案,解决方案需要兼顾通用性和定制化。 ”
在此前与滴普 科技 的合作中,百丽国际就已经完成了统一数仓的搭建,实现了多个业务线的数据采集和各个业务域的数据建设。在保证前端数据正常运行、“热切换”底层应用的前提下,滴普 科技 和百丽国际紧密协作,在短短几个月时间里将多个数仓整合为统一数仓,有效统一了业务口径,大幅缩减了开发运维工作量,整个业务价值链也形成了闭环。
这也是“湖仓一体”的能力价值所在:随着数据结构的逐渐多样性,3D图纸、直播视频、会议视频、音频等数据资料越来越多,为深度挖掘数据价值,依托于领先的湖仓一体技术架构,百丽国际可先将海量的多模数据存储入湖,在未来算力允许时,及挖掘深度的业务分析场景后,从数据湖中抓取数据分析。
举个简单的例子,某个设计师想要设计一款鞋子,一般会从 历史 数据中找有效信息参考,设计师也许只需要一张货品照片,就能像浏览电影般,了解到该商品多年来全生命周期的销售业绩、品牌故事、竞品分析等数据,赋能生产及业务决策,实现数据价值的最大化。
一般来说,大体量的企业想要保持持续增长,往往需要依靠大量、有效的数据输出,进而实现智慧决策。很多企业出于 IT 建设能力的限制,导致很多事情没法做,但通过湖仓一体架构,让之前被限制的数据价值得以充分发挥,如果企业能够在注重数据价值的同时,并有意识地把它保存下来,企业就完成了数字化转型的重要命题之一。
我们也有理由相信,随着企业数字化转型加速,湖仓一体架构也会有更为广阔的发展空间。
6. 以原始格式存储对数据类型大小有影响吗
以原始格式存储对数据类型大小没有影响。数据湖可以使用其原生格式存储任何类型的数据,没有大小限制。数据湖的开发主要是为了处理大数据量,因此他们擅长处理非结构化数据。
7. 如何区别数据库、数据中台、数据湖
数据湖、数据仓库和数据中台,他们并没有直接的关系,只是他们为业务产生价值的形式有不同的侧重。
一、区别:
数据湖作为一个集中的存储库,可以在其中存储任意规模的所有结构化和非结构化数据。在数据湖中,可以存储数据不需要对其进行结构化,就可以运行不同类型的分析。
数据仓库,也称为企业数据仓库,是一种数据存储系统,它将来自不同来源的结构化数据聚合起来,用于业务智能领域的比较和分析,数据仓库是包含多种数据的存储库,并且是高度建模的。
数据中台是一个承接技术,引领业务,构建规范定义的、全域可连接萃取的、智慧的数据处理平台,建设目标是为了高效满足前台数据分析和应用的需求。数据中台距离业务更近,能更快速的相应业务和应用开发的需求,可追溯,更精准。
二、关系:
数据湖、数据仓库更多地是面向不同对象的不同形态的数据资产。而数据中台更多强调的是服务于前台,实现逻辑、标签、算法、模型的复用沉淀。
数据中台像一个“数据工厂”,涵盖了数据湖、数据仓库等存储组件,随着数据中台的发展,未来很有可能数据湖和数据仓库的概念会被弱化。
三、小结:
数据空间持续增长,为了更好地发挥数据价值,未来数据技术趋于融合,同时也在不断创新。
8. 数据湖和数据仓库的区别是什么
数据湖就是一个集中存储数据库,用于存储所有结构化和非结构化数据。数据湖可用其原生格式存储任何类型的数据,这是没有大小限制。
数据仓库是位于多个数据库上的大容量存储库。它的作用是存储大量的结构化数据,并能进行频繁和可重复的分析。
数据科学家
可能会用具有预测建模和统计分析等功能的高级分析工具。而数据仓库就是数据仓库非常适用于月度报告等操作用途,因为它具有高度结构化。在架构中数据湖通常,在存储数据之后定义架构。使用较少的初始工作并提供更大的灵活性。
在数据仓库中存储数据之前定义架构。这需要你清理和规范化数据,这意味着架构的灵活性要低不少。
其实数据仓库和数据湖是我们都需要的地方,数据仓库非常适用于业务实践中常见的可重复报告。当我们执行不太直接的分析时,数据湖就很有用。
9. 数据湖和数据仓库的区别是什么
数据湖和数据仓库的区别:
一个数据湖专门用于存储任何形式的数据,即结构化或非结构化。它还使我们能够以其本机格式保存大量原始数据,直到需要它为止。该术语主要与面向Hadoop的对象存储相关。在这种情况下,首先将组织的数据加载到Hadoop平台,然后再加载到业务分析。进一步,将数据挖掘工具添加到该数据中,该数据挖掘工具通常位于商用计算机的Hadoop群集节点中。
数据仓库
而数据仓库收集来自多个源(内部或外部),该数据被进一步用于商业目的优化的数据。以这种形式,数据大部分是结构化的,并来自关系数据库。但是,也可以收集非结构化数据,但是大多数情况是要收集结构化数据。
数据湖与数据仓库:两者都使用两种不同的策略来存储数据。
两者之间的主要区别之一是,在数据湖中没有特定的预定架构,它可以轻松容纳结构化或非结构化数据。数据湖的概念仅在2000年才开始兴起,国内数据湖的概念也是在2020年才由阿里在云栖大会上提出并展露锋芒,数据湖展示了如何存储数据以及如何同时节省成本。
但数据仓库却不是这种情况,数据仓库通常由确定的架构组成并处理主数据。
数据湖和数据仓库在处理非结构化数据方面足够有效,但是随着生成的数据量的增加,存储所有数据可能会变得昂贵。除此之外,这很耗时并且需要相当长的时间来进行分析和存储。数据湖之所以走到最前沿的众多原因之一。它可以最有效,最经济地处理非结构化数据。
作为数据分析专业人士,您需要了解以下两个术语之间的区别:
1.数据湖中使用的像大数据这样的技术是一个新概念,但是,像数据仓库这样的概念已经使用了数十年。
2.在数据湖中,无论其结构如何,都可以存储数据,并以原始形式保存数据,直到需要使用为止。但是在数据仓库中,提取的数据组成了定量指标,其中对数据进行了清理和转换。
3.数据湖具有存储所有数据的能力,可以存储当前数据和将来需要使用的数据。在数据仓库中,需要花费大量时间专门用于分析多个源。
4.数据湖可以收集所有类型的数据,包括结构化和非结构化。但是,在数据仓库中,它会收集结构化数据并将其按照专门为数据仓库设计的架构进行排列。
5.数据湖包含所有类型的数据,并促使用户在处理和清除数据之前访问数据。数据仓库提供对预定义数据类型的预定义问题的见解。
随着非结构化数据的不断增长,数据湖的兴起将变得越来越流行。但是,仍然需要数据仓库。因此,根据您的项目,您可能需要选择最佳的存储解决方案。
10. 估值380亿美元的数据湖引领者,Databricks是如何发展壮大的
阿尔法公社
重度帮助创业者的天使投资基金
Databricks是一家正在崛起的企业软件巨头。2021年,它连续获得两轮10亿美元级别的大额融资,估值跃升到380亿美元,它在数据和人工智能领域具有全球雄心。
Databricks是一个非典型的创业故事,它由七位联合创始人创办,其中大部分是学者。它从Spark开源项目起步,现在引领了数据湖范式,这将加速其与主要竞争对手Snowflake的竞争。
本文是投资人Matt Turck与Databricks联合创始人兼CEO Ali Ghodsi的对话实录,Matt Turck在2015年就与Databricks的联合创始人Ion Stoica有过对话,对于Databricks的情况相当熟悉。在本文中Ali Ghodsi将透露Databricks从一个开源项目到大型公司的成长经历,以及在团队,产品,进入市场,扩张等方面积累的洞见,Enjoy。
科学家创始人们推动Databricks起步
Matt Turck: 我们谈一下Databricks的起步,AMPLab、Spark和Databricks,这一切是如何开始的?
Ali Ghodsi: 我们当时正处于人工智能革新的风口浪尖:Uber刚刚起步,Airbnb、Twitter处于早期,Facebook还不是巨头。他们声称,使用20世纪70年代诞生的机器学习算法实现了很好的效果。
以当时的常识来想这不可能是真的,我们觉得那些算法不可能Work,但他们说,“不,我们得到了非常厉害的结果。”当仔细观察后,我们的想法被颠覆了——他们确实获得了惊人的结果。以现代硬件和大量数据为支撑,运用上世纪的算法依旧可以获得令人难以置信的产出,我们对此感到震惊。我们想:"需要使之普适化"。例如,在Facebook,他们可以提前检测到情侣分手,如果地球上的每个企业都有这种技术,这会对现有商业产生巨大影响。这就是AMPLab的起点。
Matt Turck: 当时AMPLab的Spark是怎么来的?
Ali Ghodsi: 图灵奖得主之一戴夫·帕特森当时是伯克利的教授,他非常相信人们应该聚在一起,打破孤岛。伯克利的教授们放弃了自己的私人办公室,和所有学生一起在巨大的开放区域办公。
他们试图解决的机器学习问题以当时的技术背景来说是很有挑战性的。AMPLab里做机器学习的人,做数学的人,不得不使用Hadoop,数据的每一次迭代都必须运行MapRece,这样光是做一次迭代就需要20到30分钟。所以当时我们决定:"联合起来,建立一个反应快速的基础架构。”我们在数据上做了很多迭代。因此,不只是做一次,不只是一个SQL引擎,而是可以做递归机器学习的东西,并可以极快地找到数据中的内涵模式。
Matt Turck: Databricks创始故事的特殊之处在于,你们有七、八个联合创始人。回过头看,拥有这样一个大的创始团队利与弊是什么?
Ali Ghodsi: 肯定是有利有弊的。如果你知道如何真正让由七个人组成的紧密小组真正信任对方,并在一起工作得很好,就会发生令人惊讶的事情。我认为Databricks的成功很大程度上归因于我们互相的信任。
创业早期的创始人,即使只有两个人,他们也会争吵,然后可能会在一两年内分裂,这就是问题所在。我们找到了一种方法,使大家真正了解对方的长处和短处,使这段创业旅程成为一种乐趣。
人们总说CEO是地球上最漫长的工作,我从来没有这种感觉。我有很多联合创始人和我在一起,他们一直都在,这对我们来说绝对是一种力量。如果我们没有这些人,就不会有现在的成就。
从开源项目到公司,
从0到100万美元ARR
Matt Turck: 你们是如何从学术性的开源项目(Spark)变成一家公司,然后从0做到1000万美元ARR的?这背后是否有任何决定性的时刻,或其他特别的增长手段?
Ali Ghodsi: 我们从0到100万美元ARR的旅程非常特别,与其他的旅程非常不同。我们经历了三个阶段,第一个阶段是PMF(产品与市场契合)阶段,当你有了一个产品,你能找到它与用户之间的契合点么?这对任何公司都存在挑战。
你一旦你找到PMF,接下来就得弄清楚什么是能将该产品与市场联系起来的渠道,你的产品或许符合市场需求,但怎么通过渠道销售呢?事实上,我们一开始在这方面走了弯路,花了几年时间才确定正确的发展方向。在这几年里,为了弄清楚Databricks的正确模式我们进行了大量的实验。
接下来,让我们从产品开始,然后再谈谈渠道。
产品方面,我们有在伯克利建立的开源技术,但这不一定符合大企业的需要,因为在大企业,他们没有来自伯克利的博士。因此,我们需要为他们大简化问题,我们开始在云中托管它,但事实证明,即使是云版本对他们来说也太复杂了,无法使用。
因此,我们开始与用户一起进行迭代。我们在这之后削减了很多特性和功能,甚至可以说重新构建了一个产品。我们问自己:"如果我们知道现在的一切,回去再做一次,会怎么做?"
于是,我们重新做了另一个开源项目,Delta,你可以把它看作Spark为大型企业所做的非常简单和自动化的软件。当我们在伯克利时,我们的产品设想是提供尽可能多的功能和设置项,因为可能是一个博士在用它做研究。但当我们把产品在企业中推广时,我们意识到不是每个人都有博士学位,大家不知道如何使用它。这就是早期我们遇到的问题。在渠道方面,错误在于,我们在早期真的是非常相信这种产品主导的增长。
关于销售,当时我们的设想是,有了一个简化的产品,我们把它做成基于云的产品,就会有人会使用它,会为它刷信用卡,我们会非常成功。我们可以雇用销售人员,给年轻人打电话进行推销,我们不会雇佣企业的销售人员。我们更喜欢这种模式,它更便宜,更简单。
但那是一个错误。你不能凭空选择你的渠道。你有一个产品和相应的市场,必须找到正确的渠道来连接它们。
Databricks如何开发产品,
数据仓库VS数据湖
Matt Turck: 我们一会再继续谈进入市场。现在让我们先谈谈产品,我在Databricks观察到的令人着迷的事情之一是,你们发布新产品并将其转化为一个平台的速度。从Spark到机器学习到AI工作台再到Lakehouse,请向我们介绍一下产品的思路——一个产品如何导致另一个产品的出现。
Ali Ghodsi: 我们从Spark开始起步,它让用户可以访问所有数据;于是人们开始在企业中创建数据库,并在其中积累了大量数据。但过了一段时间,企业高管会问:“我不在乎我们获得和存储了多少数据,你能用这些数据为我做什么? ” 这就是我们试图建立其他应用程序的原因。
起初我们的收入很少,然后我们意识到它太复杂了,有太多的选项和配置。我们就问自己:"如果必须重做,必须简化,会做什么?"这种思路后的第一个创新是Delta,它重新定义了Spark,以一种真正企业友好的简化方式。但最初我们没有将它开源。
接下来,我们想:“如果拓宽数据库的用途,不仅仅是数据科学家和机器学习工程师,而是真正广泛的用例,应该怎么做? ” 这就是我们开始重视商业分析师的原因。
商业分析师习惯于像Tableau那样的操作软件。如果他们想做一些更复杂的事情,只能使用SQL。因此,我们在四年前开始致力于构建数据仓库能力,把它建立在我们称为Lakehouse的核心基础设施中,然后在前年较大规模的推广。
我们的秘诀是:看企业的问题,弄清楚那是什么,通过实际的客户问题来深入了解它,把问题带回来,解决这个问题,在云中与客户快速迭代。一旦它有了产品的市场适应性,就把它开放出来。建立巨大的开源势头,几乎像一个B2C病毒式的形式。然后,用基于云的SaaS版本将其变现。
这是受AWS的启发,当创立Databricks时,我们认为AWS是地球上最好的云计算开源公司。他们本身不进行开发,其盈利模式基于开源软件,托管它并在上面赚很多钱。我们只是在这一点上进行了调整和演变。我们认为:“这是一个伟大的商业模式。我们将在云上托管开源软件。但不同的是,我们将自己创建开源软件。这样一来,就获得了相对于其他任何想做同样事情的人的竞争优势。 ” 否则,任何人都可以建立任何开源软件并在云中托管它。
Matt Turck: 接下来,让我们从Lakehouse开始,了解一下数据湖和数据仓库的演变,以及Lakehouse是如何在这两个领域中取得最好的成绩。
Ali Ghodsi: 这很简单。人们在数据湖里存储所有的数据:数据集,视频、音频、随机文本,这既迅速又便宜。利用各种各样的数据集,你可以基于数据湖进行AI创新,AI与数据湖密切相关。如果你想做BI,而不是AI,你就使用数据仓库,数据仓库和BI有一个单独的技术堆栈,但是它其实和AI一样,有很多同样的数据集。
BI用于回答过去的问题,比如上个季度的收入是多少;AI用来问关于未来的问题,哪些客户将会回来?所以,这意味着需要两个独立的堆栈,你必须有两个数据副本,而且你必须管理它们,这造成了很多复杂性。但当年的FAANG(硅谷几个顶尖互联网巨头的联合简称)可不是这样做的,他们有一个统一的平台。所以,我们的想法是把这两个统一成一个平台—Lakehouse、人工智能数据湖--提出关于未来的问题。这两者的结合将使企业能够更快地发展。它是数据工程师、数据科学家和商业分析师的平台,这样他们就可以在整个企业内一起工作。所以这是一个用于AI和BI的数据平台。
Matt Turck: 实现这一点靠的是什么重大的技术突破么?是Delta Lake?还是Iceberg?那是如何工作的?
Ali Ghodsi: 是的, 我认为有四个技术突破是在2016、2017年同时发生的,Hudi、Hive ACID、Iceberg、Delta Lake,我们贡献的是Delta Lake。问题是这样的,在数据湖里有人们收集了所有的数据,这些数据非常有价值,但很难对它们进行结构化查询。之前的传统方式是利用SQL数据库,然后应用在BI领域。因此,你需要一个单独的数据仓库。
为什么这么难?因为数据湖是为大数据、大数据集建立的,它并不是为真正的快速查询而建立的。它太慢了,而且没有任何方法来结构化数据,并以表格的形式展现数据,这就是问题所在。那么,你如何把像一个大的数据块存储的东西,变成一个数据仓库?这就是这些项目的秘诀。我们找出了解决这些数据湖效率低下的方法,并使用户能够直接从数据湖的数据仓库中获得相同的价值。
Matt Turck: 这种方法有什么取舍吗?
Ali Ghodsi: 事实上并非如此,我们做到了鱼与熊掌可以兼得。我知道这听起来很疯狂,但试试就是如此。我们减少了很多在80、90年代由数据仓库供应商发明的技术,调整它们,使它们在数据湖上工作。你可以问:“为什么这在10或15年前没有发生? ” 因为开放标准的生态系统并不存在,它是随着时间的推移慢慢出现的。所以,它从数据湖开始,然后有一个很大的实际技术先导突破。我们在这里谈论的,是数据的标准化格式。他们被称为Parquet和ORC,但这些是数据格式,行业要将所有的数据集标准化。
这些类型的标准化步骤是需要的,以获得数据湖的突破。这有点像USB,一旦你有了它,你就可以把任何两个设备相互连接起来。所以,正在发生的事情是,开源领域的一个生态系统正在出现,在那里你可以在数据湖的范式中做所有的分析。最终,你将不需要所有这些自八十年代以来的专有旧系统,包括数据仓库和其他类似系统。
Matt Turck: 我会针对这个再问问题,业界有很多关于Snowflake和Databricks之间即将发生大冲突的议论,作为这个领域的两个巨大的公司,你对未来的看法是,数据湖最终成为范式,然后随着时间的推移,其他一切都被吸收?还是你认为未来更多的是混合,用户可以用数据仓库做某些事情,数据湖做其他事情?
Ali Ghodsi: 我将从两个方面回答这个问题。首先,人们把这说成是零和博弈,但你认为谷歌云会淘汰AWS和微软云,还是AWS会淘汰其他云?没有人这么认为,对吧。他们会共存,都将获得成功。
数据空间是巨大的。将会有很多供应商参与其中。我认为Snowflake将获得成功,他们现在有一个伟大的数据仓库,可能是市场上最好的数据仓库。而它肯定会与Databricks共存。事实上,Databricks与Snowflake共存于可能70%的客户中。我认为这种情况将继续存在,人们将使用数据仓库进行商业智能。
但是,如果长期来看,我认为数据湖的范式将获胜。为什么?因为数据太重要了,人们所有的数据都在这些数据湖中,而且更多的数据正在进入数据湖中。公有云计算供应商也有动力推动更多的动力让人们把数据存到他们的数据湖中,因为这对他们来说是既得利益。因此,任何使其真正有价值的解决方案,都将是未来的趋势。所以,我认为从长远来看,越来越多的人将倾向于这种数据湖的范式。
为什么Databricks能够不断产出创新产品?
Matt Turck: 我想了解你的产品和工程团队是如何组织的?对于一家公司,能够在第一个产品成功的基础上做第二个产品是非常罕见的。但在这里,我们正在谈论,如何成功的做出三个、四个、五个不同的产品。你的公司是如何管理好团队组织结构和其他资源,以不断创新?
Ali Ghodsi: 我们从创立Databricks时,就在试图找到这个问题的答案。我们不想靠一个单一的产品生存。当我们有了Spark,却并没有把它当成公司的名字,因为如果Spark变得落后了,我们就会把它迭代掉,然后继续向前,我们想不断找到数据的最佳答案。那么如何不断的有创新产品出现?我认为非常重要的是,要把创新和现有的现金流业务分开。
有一本关于这个问题的好书,叫Zone To Win。书中谈到,当你创造出一些新东西时,你需要快速迭代。你需要让工程师直接与客户交谈,甚至不一定要让产品经理来做,快速的创新迭代是最要紧的。而在在企业端,你需要一个慢得多的周期来迭代。
另外,所有的工程和产品团队组织被分成两个不同的部分。一部分专注于企业客户需要的东西:加密,安全,认证,稳定性等。另一部分则专注于创新,而且你应该把这些分开,分别的投入资源,否则前者(企业那部分)将得到所有的资源。你会倾向于不断地建立那些扩大你的TAM的东西。TAM扩展实际上是安全能力,它本身并没有任何创新。
我认为,有些公司已经做得很好了,比如AWS,它不是一招鲜,亚马逊本身也不是一招鲜,它不断有新的创新。所以我们希望我们的公司也是这样的,因此取名为Databricks。
Matt Turck: MLflow Delta Lake, Koalas。这属于创新阵营还是商业阵营的子层?
Ali Ghodsi: 这些都是创新阵营。当然,其中一些项目,当他们不那么创新的时候,像Spark,会转移到维护方面,我们通常也会移动核心人员。因此,实际上是同一个人或同一拨人在不断地进行创新。我们试图培养更多的创新者,但我们试图把那种已经真正有诀窍破解从0到1的人转移到下一个问题,然后把现有的项目移交给其他人去运行,比方说Spark,这已经是一个巨大的成功项目。
当我们把已经创造出东西的人转移到别的地方去创造下一个东西,对于一个优秀人才,获得这种责任是一个很大的职业提升。而我们也会发现谁是擅长从0到1人。我们实际上是在做实验,给研发部门的人一个机会去试验从0到1的东西,他们并不总是成功。这需要几次尝试,直到他们成为真正擅长的人。所以你必须慎重考虑这种高失败的策略。
开源的商业模式,有何优越性?
Matt Turck: 如果你今天要再开一家企业软件公司,你会先去开源代码吗?
Ali Ghodsi: 是的,我认为它很优越。我认为如果你从进化的角度来考虑,它在进化上比以前的商业模式要好。为什么我这么说?因为任何专有的软件公司都是成熟的,可以被开源的竞争者破坏。因此,任何专有的东西都可以立即被颠覆,就像Windows被Linux颠覆一样。我的意思是,那是最先进的东西,是真正复杂的技术操作系统,对吗?你不会认为大学里的某个家伙会发明,然后成为工业的标准。任何专有软件都是成熟的,可以进行这样的颠覆。问题是,你能靠它赚钱吗?在红帽和所有这些做支持网络服务的公司之前,这真的很难,直到AWS破解了商业模式的密码。
商业模式是我们为你运行软件,你从我们这里租用它。这是一个优越的商业模式,因为你实际上可以拥有大量的IP,这是很难复制的。所以我认为我创办的下一家公司将是这样的。如果你要问我,我的下一次创业会在哪个领域开始,我会在人工智能方面做什么?我会认为我们现在在人工智能方面的应用还很浅层,尤其是操作性的人工智能。人工智能未来将会被嵌入到各个地方。我知道这很老套。马克·安德森说,软件正在吞噬世界。我们真的相信,人工智能将吞噬所有的软件。你拥有的任何软件,人工智能都会悄悄进入,就像软件悄悄进入你的 汽车 、冰箱和恒温器一样。所以这真的是早期的事情,我认为任何加入或创办人工智能领域公司的人,他们还在早期,他们有机会创办下一个谷歌。所以这就是我想做的。
Matt Turck: 我们谈到了开源,也继续谈进入市场的问题,在这个阶段,作为一个非常晚期的创业公司。开源在进入市场的过程中处于什么位置?你们进入市场的策略是自下而上与自上而下?你们如何分配BDR小组与AE的工作,让他们协作而不是互相拖后腿?
Ali Ghodsi: Databricks是混合模式,我们是自下而上与自上而下在同一时间结合。一开始我们是自下而上,但是也会做自上而下的事情。我们有BDRs和SDRs。这是一个从市场营销开始的筛选器。
Databricks社区版是完全免费的,你想怎么用就怎么用,永远不需要付钱,而且有完整的功能。但是从这里产生的线索会导入到SDR。因此,这也是一个非常重要的管道。我们一半的线索来自于此,这就是为什么开源对我们是一个重要的引擎。
现在,我们也有传统的企业销售动作,比如给CIO递名片,一对一的交流,但发生的情况是,开发人员在这些组织中也变得越来越强大。例如,CIO说,我与Databricks的CEO进行了一次很好的谈话,我正在 探索 这项技术,但我担心,这对我们来说是正确的选择吗?那家公司的听众中会有人说,是的,我使用社区版。我们不需要做6个月的POC。我认识这些人,他们真的非常好,或者我认识他们,他们来自伯克利。我已经使用了这些技术。我去参加了一些聚会等。
因此,这有助于证实用例,你可以消除整个POC,因为他们已经知道它是什么,而不是像10-20年前那样,一个销售人员进来,解释这个软件有多棒,但你不能相信他们。因此你就必须去做POC,然后去花时间检验这个软件是不是真的有用。我们不必这样做,我们可以穿过所有这些层次。因此,我们把自上而下和自下而上结合起来,而这两方面对于Databricks的成功都是非常必要的。
从创业公司到超级独角兽,
领导者的修炼之路
Matt Turck: 你已经把一家小型创业公司带成了超级独角兽,很快还会上市。你是如何让自己完成角色转变的,从一个讲愿景,讲故事的人,变成管理一个全球组织?
Ali Ghodsi: 其实就是如何找到你可以信任的具有领导力的帮手,并和他们建立更深的信任。我可以把我大部分时间都花在这上面,而公司能够继续正常运行。我有运行良好的销售团队,市场营销团队,工程团队,我却不需要自己直接参与其中,因为我找到了适合领导这些部门的领导者,并且花了很多时间与他们建立起信任。
这是你在早期就要开始准备的事情,早期时,你的组织规模小,你可以参与到每个环节,如臂使指。但是当团队规模扩展到150-200人直到超过邓巴数。你会感觉自己完全被淹没了。因此你必须找到可以信任的正确的领导人,而且要找到自己与组织沟通的方法,因为现在不是直接沟通,而是通过领导层间接沟通,所以帮助你与团队组织沟通的人就特别重要。
Matt Turck: 你如何找到他们?你是偏向在内部提拔人才,还是从外部引入已经获得成功的高管,哪一个效果更好?你是如何处理的?
Ali Ghodsi: 要找到与公司文化相适应的、你能与之建立强大信任的高管是非常困难的,我认为不应该排除任何选项。如果能够从内部提拔人,那很好,但是如果只是内部晋升,你就不能获得市场上已经存在的成功经验,这种经验可能是超级有价值的。
如果我们寻找外部的高管,他必须经历过我们现在所处的阶段,有实战的经验。不是说他必须从零开始创建一个估值几百亿的公司,而是建立和操作过这种阶段公司的工程等相应部门,他是否在这个过程中有第一性思考,有自己的沉淀。我认为能力和智商还是非常重要的。
文化看起来是个很复杂的东西,但是对与我,会把它分解成一连串问题:我可以和这个人相处吗?愿意每天花10个小时和他在一起工作么?当事情变得非常棘手和困难的时候,我们能一起去解决问题么?所以你要做的就是花大量时间与这个人相处,然后问自己是否喜欢他们,就像婚姻一样。你可以问他们一些困难的问题,与他们争论或者听取他们的意见,直到确定这就是正确的人。如果你感觉到自己无法和某个人一起好好工作,那他就可能是文化不匹配。
本文编译整理自Matt Turck个人博客,略有删节。
关于阿尔法公社
阿尔法公社(Alpha Startup Fund)是中国领先的早期投资基金,由曾带领公司在纳斯达克上市的许四清和前创新工场联合管理合伙人蒋亚萌在2015年共同创立。
阿尔法公社基金的三大特点是系统化投资、社交化创业者社区运营和重度产业资源加速成长。专注在半导体、企业服务软件、人工智能应用、物联网技术、金融 科技 等 科技 创新领域进行早期投资。目前已经在天使轮投资了包括白山云 科技 、领创集团(Advance Intelligence Group)、Zenlayer、帷幄 科技 、所思 科技 等为数众多的优秀项目。