Aloudata想做数据工程领域的“全自动驾驶”
国内数据仓库体系的形成,已有大约二三十年。然而,随着数据量爆发,传统的数据管理架构逐渐有些力不从心:
不同系统和组织多源异构的数据造成数据孤岛,重复搬运开发又导致数据治理困难;大家曾一窝蜂涌上数据中台,寄望让这个企业的数字化中心完成数据集中存储开发管理服务等工作,但大量的数据建模与任务运维又对人力提出极高要求。数据中台逐渐成为企业的成本中心。
近几年,一个新解法渐入人们视野——数据编织。它将企业内部散落的数据编织成一张虚拟的数据网,有需求时才产生任务,可以说是数据的“柔性制造”。
这是一个新兴概念。Gartner 发布的《2024 年中国数据、分析和人工智能技术成熟度曲线》认为,数据编织是一种具有前瞻性的技术理念,预计在未来 2 到 5 年内将实现广泛应用。根据 2022 年全球行业分析师报告,预计全球数据编织市场将从 2020 年的 11 亿美元,增长到 2026 年的 37 亿美元,可见数据编织领域需求强劲。
成立于 2021 年的 Aloudata,是国内将数据编织落地的生力军。公司创始人兼 CEO 周卫林近日接受雷峰网采访,分享对数据市场的观察及团队将这个新兴概念落地商业化的过程。作为先行者的 Aloudata 迷茫过,也多走过几步路,如今,期望做出企业数智化领域“L5”工具的他们,正稳步前进。
Aloudata 大应科技创始人&CEO 周卫林
企业苦于数据搬运久矣
意识到数据工程变革这件事的急迫性,是周卫林仍在蚂蚁工作的时候。
周卫林在 2006 年进入阿里巴巴后,在阿里数据平台部待了五年多,2012 年调动去蚂蚁。他说道,自己在 2006-2014 年间主要工作之一便是“为数据找到更大的家”。
这并非易事:当时数据每 18 个月就要搬一次家,往往选型半年、使用半年,接下来半年就要开始想下一代怎么做了,“阿里的数据量增长太快,当时有互联网和人口红利,技术跟不上业务变化”。
周卫林过去蚂蚁后,蚂蚁在 2013 年开始拓展余额宝、花呗、芝麻信用等金融服务,再加上生活缴费、交通出行等更丰富的便民业务,数据增长速度更甚。2021 年前后,其数据量就已经达到 EB 级别,平台上活跃着过万名员工,托管上千万张表、数百万个任务,每年需要花费巨量成本。尽管蚂蚁能从数据产生的价值中获益,愿意支持这项开支,但成本增长的斜率有时还是比营收增长的斜率陡峭太多。
2003 年毕业后就深耕数据领域的周卫林感慨,中国的企业数字化浪潮中有他们这代人种下的因,但结出的果现在却有副作用:数据系统信息密度增加,维护成本越来越高,持续的熵增到最后会导致系统崩溃,一个数据中台往往建立三五年后就要经历一次或多次大型数据治理运动。
Data Fabric 数据编织架构理念图
Aloudata 的 CMO 刘靓也向雷峰网 (公众号:雷峰网) 指出,数据中台发展至今,已有明显弊端。一是存算成本高,大量物理预计算意味着存在很多任务产出的资产没人消费,造成资源浪费。二是出现大量相似资产,数据每被开发一遍就复制一份,一份数据可能会变上百份,数据资产背后有大量链路和盘根错节的依赖关系,如果缺乏行之有效的技术管理手段,比如离职员工留下的数据表和口径没能被后来者清楚理解消化,数据治理会非常困难。
三是对数据工程师能力要求很高,中间层建模时需要实现良好复用性,跑任务也需要很多人工运维。数据加工所用到的每张表背后都有链路和复杂的依赖关系。在头部互联网公司、大型金融企业中,链路较长的有上百层,任何一个节点出问题,数据工程师就要半夜爬起来处理。可以说,数据中台并没有根本上解决大量数据分析带来的数据管理问题。
第四,也是更重要的,建设中台意味着大量初始投资和后期持续的投资,然而业务用数的实时性和灵活性需求仍然没有得到很好的满足。也因此,Gartner 在 2024 年度的《创新洞察:数据基础设施成为中国数据与分析生态系统的基石》报告中指出:纯技术驱动的 "大而全 "的数据与分析平台(如数据中台)无法确保切实的商业回报,从而失去了利益相关者的支持。
这些问题,周卫林也都看在眼里。离开蚂蚁时,他四十岁,已经是 P10, “人到四十都有个坎,我开始想我的职业生涯要在哪里结束,对行业演进要有哪些影响。我可以在蚂蚁体系里再做10年,但这很难改变行业。”
对技术怀有梦想的周卫林,和几位后来是 Aloudata 联合创始人的同事,一起在 2021 年 5 月 9 日离开蚂蚁。2021 年 5 月 10 日,Aloudata 成立。
成立后,Aloudata 便提出 NoETL 的思路。“NoETL 不是真的没有 ETL,而是 ETL 自动化”,刘靓解释道。数据中台的本质是“数据仓库+数据服务中间件”,依然是把数据物理搬运后进行数据清洗转换,完成 ETL 过程。而 NoETL 概念下,数据不再需要物理集中同步,其集成是动态虚拟的,用户负责表通过业务语义来表达需求,系统自动化完成 ETL 作业,有“订单”时再发起生产,实现数据的“柔性制造”。周卫林后来发现,他们的这一思路同国际上推崇的数据编织殊途同归。
有了这一风向标,Aloudata 开始了在 NoETL 和数据编织道路上的探索。
数据领域的“自动驾驶” 能直接从L5做起吗?
周卫林描述自己在阿里的工作是ETL工程师,通过写代码的方式解决数据分析需求;而到支付宝后,他从0到1建立一个大数据工具体系,来解决数据分析问题。
企业不死,数据不死。与其靠堆人来解决数据分析的问题,他更希望用工具来自动化解决数据分析的问题。
Aloudata 在 5 月份成立后,同年 8 月就与招商银行签约,合作打磨产品。团队对商业化三步走的规划很清晰——先跟一个头部客户打磨,做出最小可用的技术产品后,完成 PMF 验证,再进行市场化推广。第一步打磨产品就花费两三年,直到 2023 年底,Aloudata 才发布其三个商业化产品:国内首个逻辑数据平台 Aloudata AIR、全球首个算子级血缘的主动元数据平台 Aloudata BIG 和自动化指标平台 Aloudata CAN。
Aloudata 的 CMO 刘靓介绍道,Aloudata AIR 和 Aloudata CAN 是数据编织的落地产品。在 Aloudata AIR 上,数据逻辑集成、不需物理搬运,只连接获取元数据信息,了解表的结构、数据和逻辑关系。用户可以在逻辑集成的基础上用一种 SQL 语言跨源开发逻辑视图,无需关心任务的编排和调度,而这些虚拟表只在有被查阅或加速时才会触发计算或同步任务,是跟数据编织概念最接近的产品。
而 Aloudata CAN 作为一个 NoETL 的指标平台,相当于把数据仓库的汇总层和应用层都自动化,把业务的语义和物理数据链路做解耦,开放所有明细以供灵活分析。刘靓指出,一般可以把数据仓库简单抽象成四层,包括 ODS 层、DWD 层、汇总层和应用层,Aloudata 建议企业数仓建模只做到 DWD 层,即明细层——这时数据都还只有一份,完整干净;Aloudata CAN 实现了语义表达和自动化 ETL 等核心技术突破,进而能够基于 DWD 层模型实现指标的配置化定义与自动化开发,赋予业务人员全部明细数据的分析自由。这是传统数据开发模式无法做到的。
Aloudata BIG 则主要是自动采集和解析元数据,精细刻画数据之间点和线的关系,进而实现各种数据治理场景的高度自动化。不同于传统血缘工具,Aloudata BIG 能精细到某个具体字段算子级的加工逻辑。过去的链路就像传统黄页电话号码,表的关系或数据改变都需要人手工回黄页上登记;但现在,纸质地图变成能实时更新路况、细致描绘到街道、还能自动导航的电子地图。
Aloudata亮相CDIE 2024,与现场嘉宾交流
不过,这套产品的诞生并非一帆风顺。Aloudata 的宏伟目标是实现数据工程的智能化。以自动驾驶做比喻,要实现无需驾驶员的完全自动化 L5 阶段,方法之一是从部分自动化的 L2 做起,但意气风发的 Aloudata 团队,起初想直接从 L5 开始做,一步跨越自动化和智能化之间的鸿沟。
彼时是 2021 年,大模型尚未出现,用拖拽或自然语言等方式表达数据分析需求、再完全自动化数据处理过程,观念太新,技术难度还太大。2022 年以来更务实的市场环境,也给这个宏大理想雪上加霜。尝试了八九个月后,Aloudata 决定调整方向。
从“全自动驾驶”往后退几步,团队给产品加上“刹车油门方向盘”——降低算法的比例、增加了人可以决策的部分,让客户更有安全感,商业化齿轮才顺利转动起来。
2023 年 5 月,周卫林接受雷峰网的采访时曾表示,对自己来说创业最难的是要避免把大厂的做事习惯带进来。2025 年初,再谈及此,他感慨,以前在阿里和蚂蚁“饼有多大,资源就有多大”,建团队不是问题,但创业公司并非如此。创业公司的人才画像与大厂有所不同,后者分工很细,要求人才往往更“专”、从 1 到 N,这类人才在创业公司可能水土不服。因此除了创始团队之外,找到更多有能力从 0 到 1 的人,比如志同道合的销售和市场高管,补齐团队能力,是他的关键工作。
在商业决策上,Aloudata 也摸着石头过河。尽管周卫林在蚂蚁时已经以内部乙方的角色服务各个业务,但当时不管钱,不需考虑财务模型,只需考虑产品价值。出来创业后要首先关注财务模型,把握节奏,理解企业服务本质,以及做取舍:比如当客户用极高的金额要求定制化开发需求时,接还是不接,这是一个问题。
时至今日,Aloudata 对此已有答案:符合公司 NoETL 的方向及三款产品研发节奏的客户需求,才会接下。周卫林坦言,是过去交过的很多“学费”,让团队在自省后,能采取更接地气、更接近创业公司的做法。
走过的每一步都为今日的成功注入血肉。周卫林并不畏难,这些对别人来讲的困难,在他眼中都是新鲜事、他的热情所在。随着对行业的认知加深,看着签单客户增多,有新的小伙伴加入团队,他成就感满满。
Aloudata三周年员工勋章颁发
优先解决数字化程度 10-100 的客户问题
在周卫林看来,商业化的本质逻辑大抵如此:定义好客户的问题,有好的产品解决问题,客户明白产品价值后,就能带动市场宣传教育和品牌效应。
定义客户问题是第一步。在客户选择上,Aloudata 非常明确:优先选择数字化程度 10-100 的客户。周卫林感受到,这个区间的客户被数据量庞大的问题困扰已久,愿意为此付费,且往往在三五分钟内就能听懂 ETL 往 NoETL 转的想法——他们对数据编织的概念已有耳闻,只是等待市场供应商把它变现。
Aloudata 就这样把先进技术先在先进企业里取得实效后,再进行推广。
不过,数据编织毕竟还很新——Gartner 和 Forrester 对数据编织的定义都仍是一套“理念”,而非成熟的工程实践。Aloudata 手握这一与友商明显差异化的重要武器时,自然也需接过市场教育的重担。
Aloudata 在过去几年发布了多个数据编织相关白皮书。去年年底发布的《数据编织价值评估指南》,便系统性解答了客户提出过的疑问。在这之中,周卫林特别提到两个概念:当日需求满足率和当日数据动销率,这在数字化程度 10-100 的企业内常常不可兼得——前者要求看数需求能被即时满足,但若为此让数据持续更新,很多数据当天不一定会被业务场景使用,意味着大量算力被浪费。NoETL 便是通过真实需求表达,触发计算和存储,实现按需计算。
周卫林参加DataFunCon 2024活动
Aloudata 成立的 2021 年,是美元投资和大厂人员出走创业浪潮的高峰。即便当时国内外市场对标公司很少,投资者基本听不懂 NoETL 的概念,但 Aloudata 团队符合风投喜欢的典型画像,且数字化市场空间前景乐观,很快,公司便在 2021 年 6 月和 9 月完成了两轮融资。
周卫林做好了这笔融资要顶五年商业化周期的心理准备。时至今日,他对公司商业化进展颇为满意。刚刚过去的2024年,公司签约了二十几家客户,金融行业占比六七成。目前已有客户涵盖银行、证券、品牌零售、先进制造、医疗等多个行业,包含工商银行、民生银行、兴业银行、平安证券、华泰证券、麦当劳、lululemon、理想汽车等头部客户。
周卫林相信,现在只是起步阶段,Aloudata 还有上百家待签客户,他对新的一年信心满满。他向雷峰网表示,公司在 2024 年底已进入商业化收获期,收支平衡,2025 年会逐步走向盈利,预计营收能再翻三倍以上。如今互联网人才外溢到各行各业,周卫林也认为,未来目标客户将不再局限于数字化 10-100 的客户群,头部客户的签单和示范效应会泛起涟漪,给腰部客户提供指引。
Aloudata 在过去主要是专注于数据虚拟化和 ETL 工程的自动化,未来将考虑结合大模型,发挥其语义理解能力和行动力,提高数据处理分析效率,真正实现数据工程智能化。
站在大模型的肩膀上,Aloudata 距离数据工程领域“L5”的梦想也将更近一步。
雷峰网原创文章,未经授权禁止转载。详情见 转载须知 。