奇点云:数据云操作系统未来要建立App生态,提供数据和算法服务
“数据云操作系统”是新一代的企业级数据基础设施,向下封装复杂性,向上提供易用性,帮助企业应对多云、多引擎、多主体、多应用等多变挑战。
而当大模型浪潮来袭,数据云操作系统如何帮助企业构建数据和AI能力,抓住用技术驱动革新的机会?开发者们对数据云操作系统又有怎样的新需求和期待?
在《数据云场景指南》发布会的圆桌环节,我们同样把上述问题抛给了平台建设者、数据开发者和应用开发者。
他们说:
· 平台 for AI,共享一套基础设施,同时保障数据安全和一致性;AI for 平台,用AI为运维、安全等数据场景提效。
· 数据不能出境,标准可以共享,算法可以“漫游”。
· 分析云会打造应用市场,现有产品是“原生应用”。
· 数据云操作系统要提升易用性,把封装好的数据、算法以服务的形式提供给上层应用。
本期嘉宾
· 地雷:奇点云CTO,近20年数据领域研发和产品经验,原MaxCompute大数据引擎和算法平台初代PD之一。
· 叶玎玎:GrowingIO联合创始人,国内最早一批增长黑客践行者,网易用户搜索引擎核心开发者,XRuby Core Committer。
· 证道:奇点云资深数据架构专家,18年数据行业从业经验,9年老甲方、9年老乙方,完整经历大数据技术的迭代演进。
· 何夕:奇点云资深战略咨询专家,浙江大学社会硕士生导师,本期圆桌主持人。
何夕:今年数据 科技 话题几乎离不开大模型和人工智能。首先,大模型是data-centric(以数据为中心)的AI,对优质数据和大数据平台依赖很高,同时,我们也看到了各种算法模型的落地应用,例如流失预警、销量预测、商品的调补货等等。从构建数据和AI能力的角度,各位对数据云操作系统有怎样的期待?
地雷:在《流浪地球2》上映的时候,有一个画面我当时很激动,背后是中科院软件所和计算所的专家帮忙策划和写出来的。
当时要恢复月球里基地的设备,但是人力搞不定了,所以就把MOSS接进去,要求把生产恢复起来。MOSS说,好的,我开始了,先进行扫描,看有哪些系统和硬件,然后写一个操作系统。写完以后,MOSS说,我开始写应用。
大家可以发现这个台词写得很专业,它不是一上来就恢复生产的,而是先扫描底层,写操作系统把底层通用的东西搞定,再开始写不同的应用。接下去,第一个应用才说“开始3D打印”、开始生产等等的具体动作。
只是几句台词,但它很真实地展示了实际操作系统和应用的层次。
虽然这是一部科幻片,我同样希望未来有一天,我们能基于操作系统,很快地造出应用,来应对复杂的场景需要。
地雷:回到话题本身,我们常说要分成“AI for 平台”和“平台 for AI”这样两个维度来看。
首先“平台 for AI”,客户今年问得比较多的是:你的数据云操作系统能不能生产算法,甚至跑大模型?答案是肯定的。SimbaML(算法工厂)这个产品的底层就是SimbaOS Kernel(数据云操作系统内核),来完成算法应用全生命周期的工作,包括MLOps中的开发、训练、部署等等。这其中最关键的好处在于,它和业务分析共享同一套基础设施(数据云操作系统),而不是算法和业务分2个库,数据的安全性和一致性都能够得到保障。
另外,“AI for 平台”,也就是说数据云操作系统本身就应该具备一些AI能力,来帮助很多数据场景提效,譬如智能的运维故障处理、异常行为监控等等。去年我们的数据安全团队拿下全国第一的智能算法,就采用了GPT同源的Transformer模型。
证道:我对“平台for AI”做个补充。因为有个很现实的问题,各个国家、地区都有对数据的保护要求,敏感数据是不允许跨境的。那对于全球化的企业来说,如何在安全合规的前提下,最大化使用数据资产?
我认为数据云操作系统要帮助企业做到3个“跨越”:
第一,管理、标准、算法可以跨境共享、应用。例如数据资产、数据质量、数据安全的管理体系,建模、开发、任务、调度的标准,可以推到全球各个国家和地区去应用。数据不可以出境,但算法不涉及到具体的数据,因此可以“漫游”,可以去全球各地“游学”,把自己训练地更好。
第二,可以跨不同的业态和不同的底层资源。例如,跨国公司在不同的国家、地区使用不同的云资源,哪怕不出境,国内有一些企业也有合规的要求,例如 金融 业务要求存在自己的IDC机房,其他业务可以存在公有云。借助数据云操作系统,集团要能看到整体的数据资产,具体到各业务线,也可以根据情况自行做一些调整。
第三,还可以跨引擎。比如有一些任务早些年用Hive写的,后面需要改成Impala+Kudu,后面还会有一部分改成Flink或ClickHouse。因此数据云操作系统或者说大数据基础设施是一定要支持多引擎的,而且上述三种“跨越”可以叠加发生。
何夕:作为数据云操作系统的“客户”,数据应用的开发者玎玎怎么看,或者说对数据云操作系统有哪些进阶的要求?
叶玎玎:一个操作系统要做好,它作为Infrastructure(基础设施),要让上层的开发者变得更容易。所以我作为开发者,会经常去“折腾”这个SimbaOS Kernel(数据云操作系统内核),研究怎么用得更好;另一方面,也会和操作系统的建设方(即数据云团队)一起共创、提需求,提供更多应用方的真实感受。这是我们一直未来也会继续做的事情。
那从分析云的视角看,我觉得未来分析云不会只是现有自研的应用产品,而是会成为一个“应用市场”,我们现在在做的产品(增长分析、客户数据平台等)是其中的原生应用,接下来还会开发新的产品,也可能引进好的数据应用。
在应用市场的逻辑里,你其实无法强制要求开发者必须用某个数据库,用某种引擎。在对底层各种各样复杂的要求下,我们作为应用市场,应该如何更好地给内部、外部的开发者提供服务?
目前我们的做法是,把偏底层的技术需求下沉到操作系统中,由操作系统处理以后,提供封装好的数据服务/算法服务,返回给上层应用。这其实在分析云的实践中已经证实,确实有很大的便捷性。
因此在未来,我们会重点探索如何把数据、算法变成服务,然后通过应用简单地发挥数据价值,利用AI让价值发挥进一步提效,让客户企业的内部团队能更专注在业务的数据应用上,让业内的数据应用开发者也更专注在应用本身的研发和创新。
地雷:没错。Snowflake、Databricks等数据云的领军企业都分层建设了自己的“操作系统”,并针对数据治理、BI分析、机器学习等各个场景构建了对应的App生态。现在对于奇点云的数据云操作系统来说,GrowingIO的SaaS和OP产品也都是我们的“大客户”,不断打磨数据云操作系统的能力。同时也欢迎更多的开发者——无论是数据开发、应用开发还是算法工程师,给我们的数据云操作系统提需求,让上层长出更好的应用生态。