Databricks
来源:互联网

Databricks,是一家基于云计算Spark大数据的软件运营商,成立于2013年1月1日,总部位于旧金山,主要提供用于数据集成、数据清洗、数据管理以及其他服务的基于Spark的云服务。现任首席执行官为阿里・戈西(Ali Ghodsi)。

Databricks于2016年和微软达成合作。2017年11月,Databricks成为Microsoft Azure的第一方服务平台。2018年,Databricks发布了MLflow来管理机器学习项目。2020年6月,Databricks宣布收购以色列初创公司Redash。2021年,Databricks和谷歌云达成合作。2023年, Databricks推出了开源语言模型Dolly。2023年6月,Databricks宣布收购生成式人工智能初创公司MosaicML,2024年3月,Databricks推出通用大型语言模型DBRX。

2024年,Databricks被福布斯评为“AI50强:全球最佳AI初创企业”。2025年,Databricks被高德纳咨询公司授予“魔力象限:数据科学与机器学习领域领导者”称号。

历史沿革

2013年,Apache Spark7位初始成员(Ali Ghodsi、Andy Konwinski、Arsalan Tavakoli-Shiraji、Ion Stoica、Matei Zaharia、Patrick Wendell和Reynold Xin)创立了Databricks。2016年,Databricks和微软达成合作。2017年11月,Databricks成为Microsoft Azure的第一方服务平台。

2018年,Databricks发布了MLflow来管理机器学习项目。次年,Databricks又发布了Delta Lake。2020年6月,Databricks宣布收购以色列初创公司Redash并基于其技术推出了数据湖屋关键开源技术Delta Engine,可在Delta Lake之上分层以提高查询性能。同年11月,Databricks推出了Databricks SQL,用于在数据湖上运行商业智能和分析报告。

2021年,Databricks和谷歌云建立合作,使用户能够在谷歌云上应用Databricks平台的功能。通过此次合作,Databricks成为了当时唯一一个可以在三大云平台(谷歌、亚马逊微软)上使用的统一数据平台。同年10月,Databricks收购了德国无代码公司8080labs,降低了平台的使用门槛,并在CIDR 2021发表论文首次正式提出了数据湖屋(Lakehouse)的概念。截至2022年8月,Databricks的年营收已超过10亿美元。2023年,为了应对OpenAI的ChatGPT, Databricks推出了开源语言模型Dolly。

2023年6月26日,Databricks正式宣布,以约13亿美元收购生成式人工智能初创公司MosaicML,以提供为企业构建类ChatGPT工具的服务,交易预计7月31日前完成。9月14日,Databricks完成了超过5亿美元的I轮融资。2024年3月,Databricks推出了一款名为DBRX的通用大型语言模型。12月7日,Databricks宣布完成100亿美元J轮融资,公司估值从此前的430亿美元攀升至620亿美元。本轮融资由Thrive Capital领投,多家知名投资机构参与本轮融资,包括Andreessen Horowitz、DST Global、GIC、Insight Partners和WCM Investment Management作为共同领投方。

机构治理

参考资料

机构业务

主营业务

Databricks旗下主要产品为大数据平台Spark,Sparks是基于Apache Spark开源大数据框架的统一数据分析平台,定义了云计算时代数据处理标准的引擎。

产品服务

Data Sharing:数据共享平台

Databricks和Linux基金会联合开发了Delta Sharing数据共享平台,为跨数据、分析和人工智能的数据共享提供了一个开源方法。客户可以在高度安全和治理的平台区域之间共享实时数据,可以在企业内部业务线共享、B2B分享与数据货币化等场景中应用。

Unity Catalog:统一管理方法

Databricks Unity Catalog为Databricks数据智能平台内的数据和人工智能提供了统一的管理方法。使用Unity Catalog,组织可以在任何云或平台上无缝地管理其结构化和非结构化数据、机器学习模型、笔记本、仪表板和文件。数据科学家、分析师和工程师可以使用Unity Catalog发现、访问可信数据和人工智能资产并进行协作,利用人工智能提高生产力并释放数据湖屋架构的全部潜力。该功能能够提高生产力,简化许可模型,进行人工智能监控并提高可视性。

Mosaic AI:统一构建工具

Databricks Mosaic AI能够提供统一的工具来构建、部署和监控人工智能和机器学习解决方案,包括构建预测模型、最新的GenAI和大型语言模型。基于Databricks数据智能平台,Mosaic AI使组织能够安全且经济高效地将企业数据集成到AI生命周期中。在保证企业对模型和数据的所有权的同时,提供准确、安全和可控的AI应用程序,并以更低的成本为用户培训定制化的大语言模型。

DBRX:通用大语言模型

DBRX是Databricks下一代GenAI产品的核心支柱。它是由Databricks创建的开放的通用大语言模型,采用了创新的先进技术。此外,它为开放社区和企业提供了构建定制化大语言模型的功能,可供Databricks客户通过应用程序接口使用。根据Databricks的测试,它超过了GPT-3.5,与Gemini 1.0 Pro有相似的竞争力。另外,DBRX在开放模型中提高了效率,是同类型的模型计算速度的2倍。

Delta Lake:构建湖屋架构的存储框架

Delta Lake是DataBricks公司开源的、用于构建数据湖屋架构的存储框架,是可以在开放格式之间自动即时转换的开放格式存储层,能够支持Spark、Flink、Hive、PrestoDB、Trino等查询计算引擎。

数据湖和数据库、数据仓库一样,都是数据存储的设计模式。区别在于,数据库和数据仓库通常采用明确的模式设计,即先定义好数据模型和数据结构,再将数据整合到这个模型中,因此数据库和数据仓库更固定、更静态;而数据湖则更注重数据的采集和存储,采用更灵活的架构对各种异构的数据源和数据格式进行处理,因此数据湖更加动态和灵活。数据湖屋结合了两者的优势,并且通过打通数据湖和数据仓库,能有效消除用户组织内部的数据壁垒。

Data Streaming:数据流

Databricks数据智能平台极大地简化了数据流,在一个平台上提供实时分析、机器学习和应用程序。Data Streaming能够帮助用户使用已知的语言和工具构建数据平台,通过自动化构建和维护实时数据,简化开发和操作流程,并通过流的方式批量处理数据,消除数据孤岛。

Spark结构化流是实现Databricks数据智能平台上数据流的核心技术,为批处理和流处理提供统一的应用程序接口。Databricks是运行Apache Spark工作负载的最佳场所,其托管服务能够达到99.95%的正常运行率。

MLflow:开源的机器学习平台

MLflow是一个能够覆盖机器学习全流程(从数据准备到模型训练到最终部署)的平台,旨在简化数据科学家构建、测试和部署机器学习模型的复杂过程。MLflow的第一个alpha版本有三个组件,其中"跟踪"组件(Tracking)支持记录和查询实验周围的数据,如评估指标和参数;"项目"组件(Projects)提供了可重复运行的简单包装格式;"模型"组件(Models)提供了管理和部署模型的工具。

获得荣誉

参考资料

相关事件

盗版指控

2024年,Databricks被多名作家在旧金山联邦法院提起集体诉讼,称该公司在训练大模型时"未经同意、未经认可、无补偿"地复制和借鉴了他们的书籍。

根据起诉书,Databricks被指控分别使用盗版数字电子书库Books3的数据训练了公司旗下的大模型MosaicML。"在训练期间,大模型复制并摄取训练数据集中的每个文本作品,并从中提取受保护的表达。"原告认为,Databricks收购了MosaicML公司,而MosaicML生产MPT系列大型语言模型中使用了含有盗版内容的数据集进行训练,因此构成著作权侵权。

融资公告

当地时间2025年8月19日,Databricks发布公告称,正在进行一轮超过10亿美元的K轮融资,各方已经签署了投资条款清单,对应估值将超过1000亿美元。

参考资料 >

Databricks.企查查.2025-08-20

“最火AI IPO候选人”Databricks完成新一轮融资,估值430亿美元,英伟达又参与了.华尔街见闻.2025-08-20

管理层.databricks.2025-08-20

Databricks:“湖仓一体”式云上大数据处理与机器学习平台.未央网.2025-08-20

Databricks以13亿美金收购MosiacML,AIGC领域并购升温|最前线.36氪.2024-09-10

Databricks 推出大语言模型 DBRX,号称“现阶段最强开源 AI”.IT之家.2024-09-10

Awards and Recognition.databricks.2025-08-20

这家“湖仓一体”公司H轮融16亿美元,估值380亿美元.澎湃新闻.2024-04-16

英伟达最新投资了一家“最有潜力IPO的AI公司”:Databricks.腾讯网.2025-08-20

史上最大风险投资之一,Databricks 100亿美元融资落地凭什么?|企服国际观察 .百家号.2025-08-20

全球第五家千亿独角兽即将诞生 数据公司正变得炙手可热.百家号.2025-08-20

生活家百科家居网