提供基于 Spark 的云服务，大数据软件公司 Databricks 获得 6000 万美元 C 轮融资

36氪 • 8年前扫码分享

我是创始人李岩：很抱歉！给自己产品做个广告，点击进来看看。

近日，大数据软件公司 Databricks 获得 6000 万美元 C 轮融资，由New Enterprise Associates 领投，Andreessen Horowitz 参投，本次投资有望帮助公司完成在数据的组织、计算和交付方面的一次跨跃。

Databricks 成立于 2013 年，总部设在旧金山，属于 Spark 的商业化公司，由美国伯克利大学 AMP 实验室著名的 Spark 大数据处理系统多位创始人联合创立。Databricks 致力于提供基于 Spark 的云服务，可用于数据集成，数据管道等任务。

Databricks 曾在 2014 年获得 3300 万美元的投资，当时他们推出了第一个产品 Databricks Cloud，这是一个通过将流程置于云端来简化大数据处理云平台。

Databricks 公司的云解决方案由三部分组成：Databricks 平台、Spark 和 Databricks 工作区。该产品背后的理念是提供处理数据的单独空间，不受托管环境和 Hadoop 集群管理的影响，整个过程在云中完成。该产品有几个核心概念：由 Notebooks 提供一种与数据交互并构建图形的方法，当用户了解了显示数据的方式时，就可以开始构建主控面板以监视某些类型的数据。最后，用户可以通过该平台的任务启动器来规划 Apache Spark 的运行时间。

Spark 数据处理引擎据称比 Cloudera 和 MapR 的 Apache Hadoop 要快。Coudera 公司在 2014 年筹集了大约 10 亿美元高调入场，声称他们有比以前的基础设施技术更好的方式来存储和管理大量的数据。这是 Facebook 和 Google 等公司用来处理他们收集的数十亿个数据的工具。Spark 关注的地方不再数据的存储，而是如何最有效地管理数据。

Databricks 的 Spark 系统能使大量数据在下一代应用中易于理解和使用，是数据科学家长期努力的方向。数据处理的速度和容量在当下具有许多应用，能够处理数据并使企业内部人员可以有效地理解和使用数据并提供有效服务的公司将成为最大的赢家。作为 Hadoop 开源工具组合的一部分，Spark 项目已经获得了非常可观的收入。

去年，该公司就 Spark的机器学习能力与 IBM 建立了合作伙伴关系。不少数据科学家正在涌向 Databricks 的项目。他们的社区有 288,000 名成员以及来自 250 个组织的 1,000 多名积极贡献者。

截至目前，Databricks 累计融资超过 1 亿美元。公司 CEO 兼联合创始人 Ali Ghodsi 在一份声明中表示：

Apache Spark 的高级分析解决方案帮助很多企业和早期用户创造了商业价值。随着市场对 Spark 平台的需求和认可的不断提升，这笔资金将帮助我们推进计算机工程和市场战略，解决客户的痛点，同时继续扩大Spark社区。

2016 年 11 月，在“计算界奥运会” Sort Benchmark 全球数据排序大赛公布的结果中, Databricks 公司和南京大学计算机科学与技术系 PASA 大数据实验室以及阿里巴巴组成的参赛团队 NADSort 荣获 2016 年 CloudSort 大数据排序世界冠军。该团队以 144 美元的成本完成 100TB 标准数据集的排序处理，将100 TB数据的排序价格从 2014 年的每 TB 4.51 美元的记录降到了每 TB 1.44 美元，同时刷新了多项世界纪录。

Sort Benchmark 是图灵奖获得者 Jim Gray 发起组织的全球性数据排序基准性能评测大赛，自 1987 年开始每年举办一次。CloudSort 评测竞赛项目又被称为“云计算效率之争”，旨降低云架构的获取成本，包括软件堆栈、硬件堆栈等，鼓励企业将大数据应用程序部署到公共云上。