编者按:本文来自微信公众号 亿欧网(ID:i-yiou),作者:雷小寒,编辑丨刘欢,创业邦经授权发布。
纵观全球科技创新领域,没有一家企业似Databricks一样,风头无两。
在国内,Databricks远不如OpenAI名气大。
但它的身后,站了近100家全球顶级VC。
贝莱德、黑石集团、微软、英伟达、Andreessen Horowitz、亚马逊云AWS、老虎环球基金、高瓴资本、富达投资、普信、摩根士丹利旗下Counterpoint Global、DST Global、谷歌旗下CapitalG、AT&T Ventures都是Databricks的股东。
除此之外,新加坡主权财富基金GIC(新加坡政府投资公司)、加拿大养老基金投资管理机构CPP Investments、卡塔尔主权财富基金QIA(卡塔尔投资局)也先后入局。
最容易被忽略但异常关键且神秘的是投资方In-Q-Tel(IQT)。
IQT名称取自单词“Intelligence”的字母组合,资金来源主要是美国中央情报局(CIA)、美国国家安全局(NSA)、美国联邦调查局(FBI)和美国国防部(DoD)等。
IQT主要专注于软件、基础设施、材料科学三大领域的投资。
自1999年成立以来,已投资500多家公司,最出圈的当属Palantir Technologies,该公司以大数据技术帮助军方定位和击毙本・拉登。
IQT曾在2016年以战投的身份入股刚起步的Databricks。或许也正是IQT的背书,Databricks日后的发展、融资才能“坐上火箭”。
Databricks2024年12月刚刚完成百亿单笔融资,直接刷新硅谷风险投资纪录。
这家AI数据+大模型基础服务的美国企业,通过将Apache Spark这一开源分布式计算框架商业化,已经从一个学术实验成长为估值620亿美元的行业巨擘。
换言之,Databricks还未上市,其估值已经高达4500亿人民币,超过了国内兴业银行市值,相当于2个平安银行。
简单量化对比,Databricks比东方财富、立讯精密、恒瑞医药、海康威视、中兴通讯、顺丰控股、山西汾酒等系列A股佼佼者还“值钱”。
简述Databricks的商业模式,它就像是一个超级智能的“数据厨房管家”,帮助企业和数据科学家把杂乱无章的数据变成有价值的信息。
想象一下,你有一个巨大的厨房,里面堆满了各种食材(数据)。
这些食材可能来自不同的地方,有的是新鲜蔬菜,有的是冷冻肉类,还有的是干货。你想要用这些食材做出一顿美味的饭菜(也就是从数据中提取有价值的信息),但你面临几个问题:
食材杂乱无章:厨房里到处都是食材,没有分类,也没有标签,你很难找到自己需要的东西。这就像是企业的数据,可能来自不同的部门、不同的格式,很难管理和使用。
工具不齐全:你可能有刀、锅和炉灶,但没有烤箱或者搅拌机,这就限制了你能做出的菜肴种类。同样,企业可能有各种数据分析工具,但这些工具功能有限,无法满足复杂的数据处理需求。
不会做饭:即使你有食材和工具,但如果你不知道怎么做菜,或者没有菜谱(数据分析方法),也很难做出美味的饭菜。这就像是数据科学家面临的挑战,他们需要合适的工具和方法来处理数据。
Databricks可以帮你:
整理食材(数据管理):分类存放,贴上标签,让你轻松找到需要的东西。就像是把食材放在不同的冰箱和橱柜里,一目了然。
提供齐全的工具(强大的功能):提供了一整套工具,从切菜刀(数据清洗工具)到烤箱(数据分析工具),再到搅拌机(人工智能工具)。你可以用这些工具轻松处理各种数据。
提供菜谱(数据分析方法):不仅提供工具,还提供菜谱(数据分析方法和模型)。即使你不会做饭,也可以按照菜谱一步步操作,做出美味的饭菜。就像是 Databricks 提供的机器学习和数据分析模板,帮助数据科学家快速上手。
智能厨房助手(自动化和优化):Databricks 还有一个智能厨房助手,可以根据你的需求自动调整烹饪过程,比如自动调节火候、提醒你下一步该做什么。就像是 Databricks的自动化功能,可以优化数据处理和分析过程,节省时间和精力。
同样的,假设你是一家超市的老板,你想知道哪些商品最受欢迎,哪些商品需要补货,哪些促销活动最有效。你手头有很多数据,比如销售记录、库存信息、顾客反馈等,但数据分散在不同的地方,很难整合和分析。
这时候,Databricks 就可以帮你:把所有数据集中在一个地方,方便管理和分析。
通过数据分析工具,找出哪些商品卖得最好,哪些商品库存不足。
利用人工智能模型,预测未来的需求,提前做好补货准备。根据分析结果,调整促销策略,提高销售额和顾客满意度。
除此之外,全世界都在“狂热”的大模型领域,Databricks也是重仓了基础服务,你可以在他提供的平台上,在自己的数据上训练和微调模型。
不得不说,在人人都在聊的大数据与AI时代大幕下,Databricks已然成为绕不开的“主角”。
从伯克利到创业前线
这是一个关于“数据创新”的故事,也是一个关于“竞争和策略”的旅程。
Databricks的故事始于加州大学伯克利分校的AMPLab实验室。
2013年,Databricks由Matei Zaharia(首席技术官)、Ali Ghodsi(首席执行官)等七位在计算机科学领域有着深厚造诣的研究人员共同创立,他们也是Apache Spark开源项目的核心贡献者。
当时,数据处理领域正被Hadoop的批处理模式主导,但彼时,这种模式在效率和灵活性上已显捉襟见肘。
Spark作为一种内存计算框架,以其更快速的数据处理能力和对流式处理、机器学习等多种应用场景的支持,逐渐成为学术界和工业界的宠儿。
然而,Spark在企业级应用中仍存在诸多挑战,如缺乏商业支持、代码质量参差不齐、部署与管理复杂等问题。
面对这些挑战,创始团队意识到,只有将Spark的技术优势与商业应用深度结合,才能真正改变大数据处理的格局。
于是,Databricks应运而生。
怀揣着“解决大数据处理效率低下”的初心,团队踏上了创业之路。
他们深知技术的重要性,同时也洞察到市场的巨大潜力,为Databricks的快速发展奠定了坚实的基础。
成为美国资本市场炙手可热的“香饽饽”
创业初期,Databricks就凭借技术实力、创新商业模式(开源低门槛、鼓励用户使用第三方平台等)以及大有来头的创业团队,迅速吸引了投资者的目光。
2013年,Databricks完成4000万美元的A轮融资,为公司的研发和业务拓展提供了启动资金。
后来随着Spark在企业市场上逐渐走红,Databricks的商业模式和产品也开始被广泛认可。
2019年,Databricks获得了两轮总计6.5亿美元的融资,估值不断攀升。
资本的青睐也来自对其技术前景的信心:Databricks不仅要做Spark的“维护者”,还要在大数据处理和分析领域提供更加完整的一站式解决方案。
也是在2019年,微软开始投资Databricks,并且将这家初创公司的软件版本整合到了其云产品Microsoft Azure中。
Azure Databricks是微软云服务平台Azure上提供的一个托管服务,结合了ApacheSpark的强大功能与Azure的企业级特性,为用户提供数据处理环境。此外,微软还利用Databricks的技术来增强自身产品的机器学习能力,也让Databricks借助Azure进一步拓宽了生态影响力。
而真正的里程碑在2021年,这一年里,它连续获得了两轮大规模融资,估值跃升至380亿美元。
其中一次在2021年2月完成的G轮融资,金额达到了10亿美元,而微软正是这次融资的主要参与者之一。
2023年8月底的融资中,AI芯片巨头英伟达也成为了Databricks的新投资者。接着12月宣布的J轮融资中,英伟达也继续支持Databricks,可见两家公司在人工智能领域的合作也在不断加深。
时间到2024年,资本的热情让Databricks的首席执行官兼联合创始人Ali Ghodsi都始料未及,他后来表示到“我看到了一张Excel表格,上面记录了所有想要投资的人。高达190亿美元,我差点从椅子上摔下来,我们甚至还没有和每个人谈过”。
2024年底,Databricks再次打破纪录,宣布获得100亿美元的新融资,由Thrive Capital领投,得到了Insight Partners、DST Global、Andreessen Horowitz、WCM Investment Management等硅谷巨头的支持,同时吸引了Ontario Teachers’Pension Plan、Wellington Management、Iconiq Growth、Sands Capital和MGX等机构投资者的参与,估值飙升至620亿美元。
此时,Databricks已不是那个需要“呼吁援助”的初创公司,而是一家业务遍布全球、具备相当行业影响力的科技企业。
这笔创纪录的融资帮助Databricks在全球化扩张、技术研发和战略收购上都取得了充分的“弹药”,也让外界更期待它接下来的发展。
股价被万众期待,但2024年底Databricks宣布暂缓IPO。
时临美国大选,对于一家处于快速变化的技术领域中的公司来说,确保在一个有利的时间点进入资本市场的确也是非常重要的。
Databricks到底有什么“魅力”?
让投资人趋之若鹜
技术领域:从Spark到Lakehouse的纵深演进
Databricks之所以备受资本及市场瞩目,很大程度上也源于它在技术上的持续创新。
最初的Spark,到后来衍生出的Lakehouse、Delta Lake和MLflow等核心产品,Databricks的步伐也一直踏在技术风口,无论是自身创新还是收购策略都走在大数据与AI融合的关键点上。
传统上,大数据存储分为“数据湖”和“数据仓库”两种方式:前者存储灵活但治理能力不足,后者管理和查询效率高但缺乏灵活性。
Databricks率先提出的Lakehouse架构,将二者优势相结合,实现了“大规模数据存储”与“高效数据分析”兼具的理想模式。
这样,企业无需在两者之间做出艰难的选择,既能享受数据湖的海量存储,又能体验数据仓库的高效分析。
在解决了“存多少、怎么存”的问题后,“数据质量和一致性”成为另一个重点。
Databricks开发了Delta Lake,为数据湖提供类似数据仓库的ACID事务能力,支持可伸缩的元数据管理和版本控制。
换言之,无论是大规模实时写入还是并发查询,数据的完整性都能得到保证。
随着大模型时代的到来,Databricks也将触角伸向了生成式AI领域。
这里就正好要说到,除了大家都了解的企业亟需数据治理、大数据技术服务以外,为什么GPU巨头也这么看好Databricks?他与AI产业的联系是什么?
Databricks不仅发布了自研的大模型Dolly,为了进一步拉近“数据分析”与“模型应用”之间的距离,Databricks推出了MLflow。一款面向机器学习全生命周期的管理平台:从实验跟踪、模型训练到部署和监控,MLflow都提供了一站式工具链。
也不得不提到2023年6月,Databricks以13亿美元的价格收购位于旧金山的人工智能初创公司MosaicML。
MosaicML以其高效的机器学习框架而闻名,特别是其开源的大语言模型(LLM),MPT-7B和MPT-30B,被开发者认为性能优越,且易于使用。
那会生成式AI的应用越来越广泛,Databricks看到了将MosaicML的技术融入自身平台的机会,随即高价收下MosaicML,为公司持续开拓AI领域业务走出了重要的一步。
也是这一步的突进补齐了他们整体AI基础服务业务,除了庞大的数据源特色,也搭建好了“集成性”的LLM部署平台。
后续也是持续性在AI领域推动新产品新工具的发布;例如Databricks Assistant等产品。
战场翻盘:Databricks与SageMaker、Snowflake的博弈
要知道尽管是大数据赛道的明星,Databricks在AI道路的成长也并非一路“独行”。
当时市场上针对开发者的数据工程、机器学习和协作数据科学的数据分析平台除了Snowflake、Google BigQuery在大数据服务竞争之外;在这个细分的AI大模型基础设施领域中还有许多不凡的竞争对手。
2024年前,让AI开发技术人员更“受用”的其中一家友商-亚马逊AWS的Sagemaker可是更炙手可热。Sagemaker在jumpstart中加入了预训练的大语言模型,对于企业来说吸引力巨大。
在Databricks还未收购MosaicML之前,相信更多码农更倾向于Sagemaker(Databrick很早就推出了ML产品,但是在这个领域,一直无法获得巨大进展)。
2023年6月Databricks+MosaicML的到来,不得不说是Databricks走向AI领域强有力的敲门砖。
MosaicML不仅自带了客户,融合到Databricks业务中后,提供大模型,训练数据、也提供平台,可以说是彻底转身为一家大数据服务+大模型基础设施服务商,面对Snowflake有了更多AI竞争力,面向Sagemaker有了更具特色的数据分析资源。
在AI领域,为企业提供部署服务、AI应用开发环境、训练环境、包括自动化机器学习(AutoML)工具、模型训练、部署和监控功能等……;加之有英伟达这位GPU巨头的支持,可以说是无往不利。
针对文本生成、代码辅助和自动推理等应用,Databricks也推出了自研的开源模型DBRX,并与LangChain生态系统深度结合,为开发者提供丰富的生成式AI服务接口。
当然,资本的热捧,技术的加持,但对于To B市场的竞争也还是不容小觑。
面对来自Snowflake及其他竞争对手的压力,Databricks希望通过加强其Lakehouse架构的功能来巩固市场份额。
特别是考虑到一些大型客户希望将数据移出Snowflake的原生存储层并迁移到如AWS上的对象存储中,这种情况下支持Iceberg表就显得尤为重要。
所以2024年6月,Databricks以20亿美元的价格收购了数据优化初创公司Tabular,而这家初创公司的年经常性收入仅为100万美元,Databricks用了一个相当“离谱”价格完成这次收购。
据悉,也是由Databricks和Snowflake之间的争斗推动而成。
无论怎样,Databricks通过将Tabular的技术整合进自己的平台,可以加速实现Delta Lake与Iceberg之间的互操作性,也为“竞争”加了一把油,抢得更多赢面。
Databricks在面对业务综合的巨头“竞争”时,也十分讨巧,通过其高度集成的平台和强大的AI功能,形成了与AWS许多产品的互补关系,而非直接的对抗。
可以看到双方的合作,也在2024年更近一步。
“2024年12月,AWS在Marketplace中推出了适用于Databricks数据智能平台的SaaS快速启动增强版。
过去,在AWS上部署Databricks需要手动配置,并且要求使用者具备一定的AWS基础架构预置工具的知识。
而现在,无论是数据工程师、数据科学家还是业务分析师,所有类型的用户都可以通过AWS Marketplace,仅需遵循三个指导性步骤就能迅速轻松地完成Databricks的部署。”
与巨头的战略合作是稳步向前的策略,但随着大数据和AI市场的快速发展,越来越多的科技企业进入这一领域,市场竞争日益激烈。
一路走来,战略并购也是Databricks持续推动的棋。
据悉,通过与学术界和开源社区的紧密合作,Databricks能够及时获取最新的技术信息。
同时Databricks计划利用新筹集的资金进行战略收购,整合相关技术和资源,从并购、战略合作等路径进一步提升公司的技术实力和市场竞争力。
除此之外,“人才是第一资源也是这家公司快速发展的优势之一”。
大数据和AI领域的人才竞争非常激烈,Databricks也是从收入方面给足了员工价值感。
根据2023年的全球程序员薪酬报告,Databricks为不同级别的工程师提供了相当高的薪资待遇。
初级工程师(Entry-Level Engineer)分类中,Databricks以27.42万美元的总薪酬中位数处于领先地位。
中级工程师(Engineer)职位方面,Databricks的中位数薪资达到了44.3万美元。
对于高级工程师(Senior Engineer),Databricks提供的薪酬水平更是达到了58.4万美元的中位数,远超了行业内的平均水平,明显高于其他竞争对手。
结语:中国Databricks在哪?
纵观Databricks的成长历程,从学术实验室通过不断的技术创新、多轮融资的成功、走向全球市场的迅速扩张,Databricks的成长不仅在大数据和AI领域占据了重要地位,其实也为企业如何在快速变化的技术环境中保持竞争力提供了宝贵的经验。
随着中国企业对模型处理能力需求的增长,能否精准理解客户的数据需求将直接影响产品的市场竞争力。
在中国这个更为多样又广阔的市场,在资本已经逐步关注到AI+Data潜力背景下,除了阿里云、腾讯云以外,也是完全具备孕育出类似Databricks这样独角兽企业潜力的。
类似于与Databricks有部分相似业务的企业:星环科技、滴普科技、中科闻歌, 再比如九章云极DataCanvas,又有谁可以成为中国的“Databricks”呢?
本文为专栏作者授权创业邦发表,版权归原作者所有。文章系作者个人观点,不代表创业邦立场,转载请联系原作者。如有任何疑问,请联系editor@cyzone.cn。