瓴羊数据Meet Up第三期:2025年,数据治理的金钥匙,藏在这儿
数据、算法与算力,被称为人工智能的三驾马车。在数据体量爆发性增长的当下,精耕细作的数据治理,或将成为企业赶上大模型风口的制胜关键。
瓴羊「数据荟」数据Meet Up第三站线上活动成功举办。来自中国信息通信研究院、阿里云智能集团、雅戈尔集团的业务主管、技术专家及大数据负责人,围绕“大模型时代的数据治理创新实践”主题,深入分享了AI与数据治理的深度融合、数据平台建设的最佳实践以及数据资产管理与运营的前沿见解。
大模型时代,数据治理四大趋势与三大堵点
中国信息通信研究院云计算与大数据研究所高级业务主管尹正指出,AI时代下的数据治理,将呈现出 “ 全域数据治理 ” 、 “ 数据研发模式工程化、敏捷化 ” 、 “ 数据治理技术智能化 ” 、 “ 数据安全纵深化 ” 四大趋势。
具体而言, 全域数据治理 将重点关注音视频、图片、文本等非结构化数据。在实践领域,中国移动、自动驾驶等企业已通过构建非结构化数据评价体系,关注合成数据技术,提升了数据集可信性,解决了“数据荒”难题。
在全域数据治理下, 数据研发模式 也随之发生变化,企业应打造面向 AI 与 BI 结合的数据工程 “ 流水线 ”,以系统化方法提升效率、降低成本、保障质量、推动创新。同时, 智能化数据治理 将逐步取代传统劳动密集型模式,而 AI 驱动的数据安全技术与能力 ,将为解决数据安全关键问题、应对大模型安全挑战指明方向。
尽管趋势向好,但 当前大模型发展仍面临质量、安全、伦理三大数据堵点 ,具体体现为:高质量数据集构建知易行难,安全与隐私泄露频发、数据伦理体系亟待完善。不过,面向AI的数据治理框架正在形成,人工智能数据治理的流程、方法、技术也在逐步完善。此外,依据DataOps理念构建面向人工智能的数据工程体系,为Al提供了敏捷高效、安全可信的数据供给,并进一步为企业人工智能长期平稳、良好、健康发展提供了保障。
以数据标准为抓手,让AI为数据治理提效
阿里云智能集团瓴羊高级技术专家周鑫指出,企业数据治理面临现状评估难、组织架构复杂、实施成本高、治理迭代难等多个难题, 破解以上难题的最好方法,是找到核心抓手,降低数据治理的复杂度。
数据治理很重要的一个核心是数据标准的梳理与建设。通过瓴羊 Dataphin ,企业只需完成基础数据梳理,即可完成大部分数据治理工作 。例如,在身份证数据治理中,企业仅需定义数据类型、分级标准及字段空值校验等规则,系统即可自动开展元数据监控,检验数据是否符合字符串类型、是否存在空值,安全权限是否合规。除元数据监控外,数据标准还能与数据质量、建模、研发相结合,使数据标准可以在数据全生命周期中得以不断流转。
周鑫提到,数据质量是AI成功的关键,据Gartner预测,到2025年,至少三分之二的生成式人工智能项目将因数据质量不足等问题在概念验证阶段被放弃。与此同时, AI 同样是实现主动数据治理的重要工具 ,它可以让数据治理变得更加智能化和自动化,形成从数据发现、治理、评估与标准的完整闭环。
瓴羊Quick BI智能小D是AI+BI的标志性产品化成果,它承担着数据PD与数据架构师的角色,可以为用户业务问题提供直接的解决方案。以往,关键词搜索往往与实际业务问题相差千里,搜索“交易”得出的相似度匹配信息,并不能解决实际的业务问题。 而利用智能小 D ,用户可直接提出 “GMV 提升 20% ,我能做什么? ” 或 “ 哪些表适合用于客户分层? ” 等问题,无需自行拆解数据维度,即可获取直接的数据维度与策略指引。
除了数据发现与理解,瓴羊通过 自动属性丰富功能 ,帮助企业一键生成目录、标签、描述等信息,将原本需要半小时完成的上架操作缩短至数十秒,效率提升百倍。此外,瓴羊的 自动生成识别特征功能 ,让不会写、读不懂正则表达式的人也能轻松完成条件组合复杂的特征识别工作。迈过提效阶段后,Dataphin还将往更加自动化、智能化方向演进,探索自动生成质量规则、智能理解业务流程解决方案,让数据治理更加轻盈。
Dataphin的技术演进:打造开放兼容的数据建设与治理平台
阿里云智能集团瓴羊高级技术专家江岚指出,Dataphin在产品演进过程中,面临着 “ 全域资产建设与治理 ” 、 “ 混合云架构 ” 、 “ 多引擎支持 ” 和 “ 资产消费 ” 等挑战。为应对这些挑战,Dataphin成功探索出了一套优化数据建设与治理中台的技术实现路径。
在多引擎兼容方面 ,Dataphin通过多引擎SDK和插件的结合,充分融合了富客户端和轻客户端的优势,在接口层、插件层和依赖层构建了多引擎技术架构,实现了对多云环境的支持以及多种引擎的适配兼容。
在混合云架构方面 ,Dataphin基于Kubernetes集群部署了应用集群与默认调度集群,同时在IDC通过外部调度集群进行任务调度,广泛应用于数据集成、数据服务和资产采集等多个场景。
在资产消费场景中 ,Dataphin通过统一JDBC,实现了数据资产在权限管理、脱敏处理、审计等方面的统一管控。此外,Dataphin还与Quick BI进行了深度集成,大幅简化了用户的配置工作。目前,Dataphin已经在自助取数与分析、数据探查与分析、接口调用与应用等三种消费方式中得到了广泛应用,极大地提升了业务人员、数据分析师和开发人员的工作效率。
从数据资产建设到数据运营,雅戈尔的数据价值探索实践
雅戈尔集团大数据负责人竺显波表示,数字化建设有两个阶段,一个阶段是一切业务数据化、可视化,第二个阶段是一切数据业务化、价值化。 数字化之所以经常被说成是 “ 一把手工程 ” ,正在于它要协同好公司的战略、业务、技术、治理与改革,是一个系统性的大工程。
雅戈尔的数据架构由以下三部分组成:数据源层、数据中台与数据应用。其中, 数据中台和数据应用分别通过瓴羊 Dataphin 和 Quick BI 等数据产品,实现了工具与架构的全面升级, 落地了多个数字化产品成果。例如, 企业数据门户 以销售、物流等类别划分,用户只需简单拖拉拽操作,即可快速生成所需报表; 主题门户 则根据品牌、大区管理人员、店长等特定身份进行分类,为不同用户精准聚合并高效查找所需数据提供了便利。
在数据中台建设方面, 雅戈尔成功搭建了 16 个系统,整合了 950 多个数据表、 400 个指标和 650 个报表 ,提升了系统性能与架构效率。同时,雅戈尔实现了组织架构信息、商品信息、人员信息等核心数据的统一治理与贯通,消除了数据二义性。
在标准化治理的基础上,雅戈尔从 数据组织、技术架构和流程管理 三个层面全面优化,推动数据价值的深度挖掘与应用。以“平效”为例,数据团队基于“面积在300至1万平方米之间,面积越大,平效越高”的数据规律,验证了公司“开大店、关小店”战略的科学性和可行性,为企业决策提供了数据支撑。
随着AI与数据治理深度融合,更多行业将迎来数字化转型的新机遇。瓴羊将持续以数据标准为核心,打造开放兼容的数据建设与治理平台,推动企业开启更加高效、安全的数据治理新时代。