偶数科技亮相2023中国程序员节——数据库技术高峰论坛
近日,由中国软件行业协会主办的“中国程序员节”在北京、深圳、宁波多地同时召开,其中数据库技术高峰论坛在北京举办,偶数 科技 亮相本次论坛并分享了题为《大模型、实时需求推动湖仓平台走向开放》的主题演讲。
国际局势复杂、科技竞争加速,数据库作为科技发展的根技术之一,在信息管理、决策支持、数据挖掘等方面的重要性日益凸显。为了进一步推动国产数据库技术的发展和应用,本次论坛汇聚了业界专家、学者,围绕多模态、分布式、国产迁移、湖仓一体、开源社区等数据库技术话题开展交流与探讨,增进广大程序员对前沿新技术及应用的深入了解,拓展知识深度。
当下,AI和实时场景的需求不断扩展,AI+实时俨然成为了企业数据平台无法避免的技术焦点。偶数市场总监杨哲就如何让企业如何通过开放的数据平台拥抱AI+实时的双重能力,进行了分享。
偶数给出的破局之道首先是在数据的存储方面采用 开放格式的一份数据( 如Parquet、ORC、Hudi等)。各个计算引擎都使用开放的数据格式,数据以开放文件格式被写入数据平台,之后就能被多个引擎多次直接读取和使用。
有了存储的开放性,在计算引擎方面,可以尽量优化和减少计算引擎的数量,并针对结构化数据、非结构化数据和流式数据,选用各具优势的计算引擎:
针对 流数据 的计算,采用常见的Flink;
针对 非结构化数据和机器学习 ,可以采用Spark;
针对 结构化数据 ,需要兼容开放数据格式,兼顾实时查询、离线分析、高并发和高可用的分析引擎,比如偶数的OushuDB。
至此,开放格式,一份数据,多个引擎的架构初步形成,这样的“一数多擎”架构形成了可以破局当前企业数据困境的方案——实时湖仓(Realtime Lakehouse)。“一数多擎”是偶数在多个行业的湖仓一体项目落地中不断迭代的最佳实践,企业在选择多个引擎时一定需要基于“ 化繁为简 ”和“ 扬长避短 ”原则。