对话云器科技喻思成:AI助增云湖仓需求
上个月,Databricks 宣布 Meta 已成为其投资者之一,参与了最近一轮总额达到 100 亿美元的融资,据悉,这是风投史上规模最大的一次投资之一。至此,Databricks 估值已达 640 亿美元。
融资热度持续上涨的 Databricks 背后所代表的技术风向,是其于 2020 年提出的“湖仓一体”。这一概念在数仓领域激起千层浪,成立于 2021 年的云器科技,便是该理念的践行者之一。云器在成立之初就专注于云湖仓,并于去年开始落地商业化。今年 1 月,云器 Lakehouse 向全球用户开放注册,目前单日 SQL transaction 已经接近千万。
“任何一个技术不成为产品是没有作用的,任何一个产品如果不能商业化也是没有意义的”,云器科技 CEO 喻思成向雷峰网说道。创立云器科技前,喻思成曾任 Oracle 全球副总裁,后来成为阿里巴巴集团副总裁、阿里云国际业务负责人,将阿里云海外业务从零开始建立起来。
与同期许多技术驱动的初创公司不同,云器在成立之初便确立了“技术+产品+商业”三驾马车齐头并进的团队架构,团队成员主要自国内外顶尖云计算与大数据企业。早期仍在产品研发阶段时,云器团队便定下目标:与 100 家潜在客户深度沟通,确保产品方向与市场需求对齐。
与雷峰网回顾商业化进程时,喻思成认为公司成立至今大方向始终没有改变,一方面是对“湖仓一体”趋势的预判与确信,AI 出现促进了人们对“湖仓一体”的需求;另一方面,也得益于及时跟进市场需求的团队配合。
云器成立之初,目标就是全球的市场。他们的目标客户是数据型企业中的远见者——需要数据基础设施,并实现数据的价值”。
但喻思成也感慨,云器接下来面对的挑战,就是如何发展得更快一些。这是他的焦虑与野心:不希望云器做一家成长缓慢的公司,希望借下一代数据技术爆发时,云器能实现弯道超车。
以下是雷峰网在不改变谈话原意的基础上进行的对话整理。
云器科技 CEO 喻思成
一个产品打中一千个人的痛点
雷峰网:您当时离开阿里开始创业,是什么契机让您有这样的决定?
喻思成:2020 至 2021 年期间,技术、商业模式和融资环境都经历了重要变革。在技术领域,Snowflake 的成功上市以及 Databricks 等公司的快速发展,有力地证明了“一体化湖仓”是大数据架构的未来趋势。此外,云计算市场格局也基本稳定,呈现出美国三大云厂商和中国四大云厂商的竞争态势。在此背景下,云上湖仓作为下一代大数据处理技术方向,已得到确认。
此前,大数据技术经历了多个演进阶段,从 Teradata 到 Hadoop,再到各大云平台自研的大数据平台,比如阿里云 Maxcompute 。发展至今,涌现出 Databricks 、云器 Lakehouse 等跨云、多云中立的数据平台产品。正如我之前在阿里云体会到的,如果多云一体化云湖仓是未来方向,那么在单一云平台内部实现真正的多云架构,将面临诸多挑战——因此,才有了离开阿里创业的契机。
雷峰网:云器在 2021 年成立之初就已经锚定了要做云湖仓吗?当时商业化策略是什么样的?
喻思成:对,最初计划在两年内研发产品,然后开始商业化。预期是先聚焦中国市场、再拓展亚洲市场,将来考虑欧美,大方向从未改变。截止到 2024 年底,云器经历了一年多的商业化,我们对市场环境的整体体感是,虽然国内商业环境不如 2021 年的预期,但海外市场并没有太大回退,云器依然收获不少客户,整体运行在快速发展的轨道上。
雷峰网:去年这一年在做商业化,是指已经走完 PMF(Product Market Fit,产品和市场达到最佳的契合点)阶段了吗?
喻思成:目前云器已经落地几十个付费客户,营收增长比较快,在阿里、腾讯、AWS、GCP 等平台上都已经有生产的客户。在这些平台上单日 SQL transaction 已经接近千万。但我认为 PMF 是一个持续的过程,到今天都不觉得我们 PMF 走完了。
比如云器的核心优势是独创的增量计算技术,对比传统 数据 Infra 架构,效率提升极大。但初期切入时要更换客户现有架构中的哪一块组件?是需要不断迭代的认知问题。不同客户的业务、数据量、使用的技术架构都不同,因此痛点也不一样。客户可能使用多个组件组合的功能,比如用 Spark 做 ETL、用 Clickhouse 做 OLAP等。目前,我们在很多客户实践中逐渐摸索出来,替换 Spark 是最有效的方案。
雷峰网:现在云器出海进度如何?
喻思成:我们已经在东南亚实现商业化,也有帮助国内客户在东南亚落地,但还未进入美国市场。出海方式既有“直客”模式,直接去服务客户,也有跟合作伙伴合作,主要的合作伙伴是七朵云(云厂商),目前云器 Lakehouse 已经适配所有主流云平台。
雷峰网:云器在今年 1 月 15 日宣布 Lakehouse 免费向全球开放注册,为什么考虑这样的举措?
喻思成:云器 Lakehouse 产品正式发布是在 2023 年 7 月份,经过了 18 个月,我们得到了很多 Key accounts 验证,PMF 走到一定阶段后,我们有信心能承接大部分客户的通用需求,因此在 2025 年初正式开放注册。
雷峰网:免费意味着什么?
喻思成:数据普惠不是空谈,用户可以零成本启动。
现在注册的用户飙升很快,客户数量也超出预期。很多客户是公司里的 Data infra 团队,做企业大数据的基础设施;当然也有使用这些基础设施的人,做 Business Analytics、做 BI 的、做数据分析或数据开发的。
云器的 Compiler optimizer 都是完全自研,服务一个客户和服务一千个客户难度完全不一样,系统压力非常大,不只是峰值的问题,还包括设计一个产品要打中一千个人的痛点。
雷峰网 (公众号:雷峰网) :云器有考虑跟 AI 的融合吗?
喻思成:AI 方面一直在做,最近也有发布 AI 产品 Data GPT,通过 AI 大模型技术,让不懂 SQL 的业务人员也可以直接用自然语言交互,内置的指标体系大模型可以把业务语言转换成 SQL 查询业务结果,并展示为报表或图像。这是在云器 Lakehouse 基础上的 AI 能力。
雷峰网:那未来会考虑做信创吗?
喻思成:打造信创体系确实在规划之中,我们目前正在跟相关部门积极沟通,推进国产化软硬件的适配工作。当然,这也要视客户的需求而定。云器早期的客户主要集中在线上互联网领域,如 SaaS、游戏、电商行业,但随着产品能力逐渐被大部分企业认可,业务拓展到线下企业,例如车企,以及未来的银行金融客户,对信创的需求将会日益凸显。因此,我们将根据市场需求,加大在相关领域的投入。
商业闭环从第一天开始培育
雷峰网:在开拓客户过程中会面临困难吗?2021 年前后很多数据库公司创业出来,当时云器创立后在商业化开拓客户过程中,会存在数据库市场被之前的公司占领、需要跟他们抢客户的情况吗?
喻思成:有,但这种情况往往不太多。目前在中国,我们跟存量的云厂商、大数据商业化平台一起去服务和转换的客户,大部分是开源的使用者。现在市面上 95% 的大数据平台,都是使用者用开源软件自己搭建的。但并非所有公司都适合用开源软件去搭建一个大数据平台,因为非常耗费人力和资源。自建数据平台往往适合规模较大且技术较强的公司,对中小型公司、尤其小型公司来说,整体成本难以承受。比如,搭建一个大数据平台需要至少 20 个组件工具,Spark、Clickhouse 等,Data infra 团队少则两三人、多则五六人,而且要百台以上服务器,每年几百万固定的消耗。
从这个角度上说,云器提供了更高效、更经济的解决方案去满足不同企业需求。我们更多是转换 95% 的蓝海市场,而不是在已转化好的 5% 市场里争抢。
雷峰网:云器的客户领域行业上分布也是以金融领域为重吗,还是会更分散?
喻思成:实际上金融领域并不是我们最初的重点,我们更多关注线上垂直互联网,或者叫 Digital native 企业。因为云器 Lakehouse 就是基于云诞生的,对客户的云环境是最基本的要求。目前来看,Digital native 企业上云比例远高于传统企业。
雷峰网:云器的第一个商业化客户是谁?
喻思成:一家为跨境电商建站的 SaaS 企业。
雷峰网:所以在云上打磨好之后,之后会去跟金融之类比较传统的行业接触吗?
喻思成:是的,我们现在已经开始逐渐向线下拓展。虽然还不能在本地 IDC 机房里部署,但支持在私有云环境下安装。
雷峰网:过去在工作中有印象比较深遇到什么困难吗?
喻思成:我们在过去的一年中打了很多硬仗,比如拿下几个旗舰级的客户,如长安汽车、销售易以及东南亚最大的电商物流公司 NinjaVan等。
初期,客户对我们的增量计算技术的通用性、数据引擎技术的效率(数倍甚至十倍于现有架构),以及替代Spark引擎所能带来的成本降低幅度,初期持怀疑态度。只有在实际测试体验过我们的产品后,他们才逐渐认可。因此,如何快速赢得客户信任,是我们目前面临的主要挑战。
为此,我们会组建由我(CEO)或 CTO 带队的专案组,内部称之为“小黑屋”, 通常采用方案演示配合POC(概念验证)的方式,并在客户上线后,提供全托管的 SaaS 服务,接管其运维工作。这个过程短则一个季度,长的要三个季度。
雷峰网:过程中会有觉得困难想放弃的时候吗?
喻思成:那倒没有。困难是很多,但我们的团队绝大部分来自于几个头部云厂商和互联网厂商的核心团队,服务过类似阿里这样数据量、交易量都世界最头部的客户后,没有哪个客户是服务不了的。虽然创业资源有限,但我们坚持提供与头部厂商同等甚至更高的服务标准。这要求团队必须具备极强的战斗力,而面对大型客户,大家反而都感到非常兴奋。
雷峰网:云器创立之初搭建的就是“商务+技术+产品”这样一个完整的团队组合,但同期很多数据库公司早期可能会更专注于技术人员的配置上,为什么云器在创立之初就有考虑这样的配置?
喻思成:云器从最初就重视商业化。在我们看来,任何一个技术不成为产品是没有作用的,任何一个产品不能商业化也是没有意义的。很多技术听起来高大上,但不能产品化;或者产品听起来很好但客户不买单。我们不希望闷头做两年产品后到市场上发现完全不对,再回去从头开始闭门造车。
雷峰网:所以在前期打磨产品时已经一边去跟市场接触、了解用户需求。
喻思成:对。我们在产品研发时,商业化团队就定了一个目标:要和 100 个客户接触,问他们“我目前准备做这个产品,你会不会买单”。
在新技术来临前占据好位置
雷峰网:您感觉国内数据库市场发展到现在,比起云器创立初期来说有什么变化?
喻思成:这是个好问题。我个人觉得,2021 年大家已经感受到整个市场在未来十年内会有大升级,所以很多人出来创业。但到 2024 年市场环境经济形势不如人意,包括云器在内的一些公司,选择出海,国内外同时布局。但全球来看,2021 年看到的未来十年整个代际升级的趋势依然存在,Databricks 最近的融资也可以看出, AI 浪潮下的 Data Infra 需求呈几倍甚至指数级增长。
其实很多国内做大数据平台的友商聚焦点不一样。有的做最上层的 BI 展现,再往下可能是指标,做数据精细化加工,还有做数据中台,再往下有专门做 ETL 编排的,都是为了帮助客户把数据真正用起来,数据已经有了,如何让数据帮客户产生更好的价值。云器是做最底下那一层,数仓,离客户的直接业务还是比较远,更偏技术性。所以虽然也感受到经济的起伏,但感受到的并不像其他友商那么多。
雷峰网:感受不像其他友商那么多,是因为技术上的需求不会因为经济波动有很大的影响?
喻思成:对,因为上层或者越往上靠的厂商,要了解客户的业务和行业,要回答的问题是怎么帮客户用数据赚钱。但云器的客户大部分都是“成熟客户”,如果客户上来就说“我手里有数据但我不知道怎么变现”,那这就不是我们的客户。
雷峰网:现在大家都在做数据普惠化。
喻思成:我们也在做数据普惠化。目前开放注册后企业可以以零成本启动,再按需付费。很多客户希望能以低成本进行数据处理,而不是投入百万级别的资金来搭建大平台。云器的最低消费客户每月只需支付大约 10 元人民币,这大大降低了使用成本。
雷峰网:所以您讲的“成熟客户”,也是云器在选客户时着重看的标准是吗?
喻思成:对。举个例子,如果数据是原材料,大数据平台就是厨房,客户做数据分析的人员就是厨师,其用户就是外面的食客。我们看一个客户是不是成熟,就看这个食客比例有多高。如果这个企业里有 30% 以上的人没有数据就开不了工,说明它真的是数据驱动型企业;但如果整个公司数据只有老板定期看看报表,这就不是一个很成熟的企业。
云器是做厨具的,让客户只需要留下厨师,不需要另起炉灶。成熟的客户就像厨师,他们知道如何做菜,而我们的工具就是帮助他们做得更好。
雷峰网:您也提过中国用户对数据平台的选择很多时候不是简单常理推论可得,不是一个特别容易拓展的市场,您观察到大家有些什么样的选择特点?
喻思成:中国的客户大致分为两类:一种是能独立做菜的,另一种是不知道怎么做菜的。对于后者,最开始要解决的就是要给他们提供咨询服务,告诉他们 Data monetization(数据价值实现) 如何做。随着市场的发展,越来越多企业能自己做菜,但偏向咨询的业务模式并不适合我们,我们更倾向于做产品型公司。
雷峰网:Databricks 在 2020 年提出湖仓一体,当时还是比较新的概念。现在发展到 2025 年,您对湖仓一体的认知上会有什么变化吗?
喻思成:没有变化过。我们很幸运,当时就坚定地做下来。AI 大模型的出现将加速这一趋势,未来几乎所有企业都能利用它来实现 AI 应用,将结构化和非结构化数据存储在一个 Lakehouse 中,满足不同客户的需求。
雷峰网:眼下推进湖仓一体会面临什么难点吗?
喻思成:没有太大障碍,大家基本默认数据库底下要用湖仓一体,这也是为什么 Databricks 这几年估值涨得非常快;另外我们也看到更多机会,例如在云湖仓上有更高时效性的数据分析的需求。
雷峰网:会有新出现的技术给湖仓一体落地带来挑战吗?
喻思成:目前没有,湖仓架构本身已经得到业界广泛认可,主要还是一个标准花落谁家的问题。就像目前数据库三个标准,Delta Lake、Hudi,之前 Databricks 把 Iceberg 也收购了,就看最后谁来掌控数据湖的标准。而我们思考的是提前布局,构建更加“一体化”融合的数据平台。因此云器发布的包括一体化引擎 Single-Engine,以及实现的通用“增量计算”技术,正是为了提前布局下一代数据平台的技术能力,应对未来更深层次的融合需求。
雷峰网:这几年云器商业化过程中会面临什么困难吗?
喻思成:我们到今天为止,最大的困难都还是怎么能发展得更快一些。我们的商业化版图一直在扩张,但始终对我们来说最大的问题都是怎么能跑得快一些、再快一些。
雷峰网:是觉得有哪里发展得慢了,有些焦虑吗?
喻思成:我们不希望做一个缓慢成长的公司。
雷峰网:怎么定义“缓慢成长”?
喻思成:很多人说“慢即是快”,它确实有哲学含义,但我觉得还是要能很快在一个商业化环境里迭代验证自己。2021 年数仓向数据湖发展,2023 年就开始出现生成式AI(GenAI),迭代速度会越来越快。Deepseek 出现后,下一个 Deepseek 很快就会出现。我们希望在下一代技术来临前,占据一个好的位置、一个领导者的位置。
专题介绍
2020年前后,国产数据库创业大潮汹涌。然而,随着AI大模型的出现,人们视线的聚焦与资本的兴趣也发生转变。五年过去,国内的数据库公司现状如何?他们在做什么新的尝试?又遇到什么新的困难?本专题与一系列数据库创业公司的创始人对话,回顾近年数据库公司在商业和技术领域的探索。纵然面对数据库市场的寒冬,从业者们各有招数,怀揣着对数据库的理想与确信,走出各具特色的商业化之路。我们诚邀对此专题感兴趣的从业者共同参与讨论,或是作为受访对象分享您的真知灼见。欢迎添加微信 Ericazhao23。
雷峰网原创文章,未经授权禁止转载。详情见 转载须知 。