中国大数据产业发展观察:持续向上向好

数据观  •  扫码分享

近年来,我国大数据产业一直处于持续向上向好的态势。中国信通院作为行业智库和产业创新发展平台,始终通过行业研究与各位同仁同频共振,梳理和总结发展的趋势、面临的挑战,形成体系化的观察。

今年上半年,中国信通院围绕技术、管理、安全、应用、数据要素、流通交易等环节开展研究。在2023大数据产业发展大会主论坛上,中国信通院云计算与大数据研究所大数据与区块链部主任姜春宇进行了题为大数据产业发展观察的演讲。

以下为演讲实录

中国大数据产业发展观察:持续向上向好

上图为我国大数据相关政策演进趋势:2014年,大数据首次被写入中国政府工作报告。2015年,国务院印发《促进大数据发展行动纲要》,这是中央政府在数据政策领域的第一枪。2016年,工信部《大数据产业发展规划》发布,标志着这一产业首次拥有了自己的五年发展规划。时至2020年,我们可以看到,大数据产业蓬勃发展,尤其是其技术、产品和服务能力均得以不断提升。

这五年的时间是夯实基础的五年,大数据连续六年写入政府工作报告,这是非常独特的经历,相比之下,云计算、AI等技术均没有像大数据一样得到如此多的关注。2019年,十九届四中全会《决定》首次将“数据”列为生产要素,这是一个重要的里程碑事件。

如果说在过去的六七年时间里观察数据都是以技术思维和技术视角看待,那么从2019年开始则将其真正作为数字世界和数字经济的核心生产要素以及数字世界的承载加以对待。

中国大数据产业发展观察:持续向上向好

围绕数据要素还有一系列相关文件发布,2022年,国务院发布“数据二十条”,构建数据基础制度体系,并将其作为系统部署数据制度的“四梁八柱”。

过去的十年,我们对数据有了不同的认识,发现数据相比于土地、劳动、资本等其它生产要素具有自己独特的特点。由于其独特的特性,现有的很多制度体系都无法匹配,我们对它不能像对待传统的知识产权、软件、土地等生产要素一样。去年的“数据二十条”主要是构建适应数据的基础制度体系,其中包括四点:

数据产权制度,在“数据二十条”中提到了三权分立,虽然我们对数据拥有所有权,但它却并不被我们控制,那么如果企业需要使用的话怎么区分?所以就要有三权分立的产权制度体系。

流通交易制度,其实这种体系一直在运转,包括广告和征信。数据交易所诞生以前,数据已经在流转,中央提出流通交易机制就是构建场内和场外结合的流通机制。

收益分配制度,如何让人民享受到数据红利,这里提到了分配制度如何倾斜的问题。

安全治理制度,所有一切数据利用的前提都是安全的保护,所以数据在一个企业内部流转时保护起来相对容易,但在多个跨主体、跨领域、跨行业流动时,安全治理体系如何构建?可以说这是一个很艰巨的任务,因为信任很难实现。

中国大数据产业发展观察:持续向上向好

大数据产业经过多年的发展,现在已经进入“十四五”发展阶段,整个态势非常好、动力非常充足,产业规模达到1.57万亿,数据产量是ZB级别,很多企业数据规模都是PB,国家层面是ZB级别,论文专利也是在全球处于领先地位,和数据有关的市场主体超18万家,高校数据领域的课程也逐渐丰富起来。

围绕以上五个方面,我们都有一些认识。数据计算与存储就是数据基础设施,管理也是一个新的方向,头部行业实现数据管理,再向各个行业全域转型,点对点流通路径已经初步探索完成,全社会范围的规范化流通正在探索,支撑高层领导的应用体系已经初步完成,但很多企业和机构探索的都是如何赋能整个企业各级别的人员,尤其是一线人员,以及如何让数据更加平民化、贴近前端,这最早是由法规推动,现在是双驱动,也就是内生安全需求和外部合规要求,如何将安全体系嵌入业务治理也十分重要。

数据基础设施发展了十多年,从2006年算起已经将近二十年,大的基础设施创新已经完成,还有一些点状创新,整个产业前景持续向好,安全稳定已经成为焦点。

当前整个基础设施呈现三个特点:云化改造全面加速,尤其是国际视角,这是因为国际公有云占有率非常高,并且云原生和Serverless均极具弹性和云化的能力。融合一体持续加深,如何把数据技术纷繁复杂的体系规划到一个比较简单的、容易运维的体系?我们经常讲融合,这是为了简化我们的运维负担。内生安全快速补强,这里包括全密态数据库、内置敏感识别和内置防火墙。

最近两年非常明确的一个发展趋势就是降本增效,互联网大厂都在这样做,地主家里也没有余粮了,大家都在想着如何降低成本。我们跟很多大型互联网企业聊,他们的主题也都是降本增效。以前很多基础设施都是各个业务团队自己维护,现在大型央企国企都想打造统一的基础设施来降低成本。院里正在进行《湖仓一体成熟度模型》和《批流一体成熟度模型》,指导大家实现多个平面、多个计算引擎向统一的基础设施演化。

在精细化运营方面,很多机构建立统一基础设施以后就要想着成本分摊,利用资源就应该记帐,不然的话资源还会进一步浪费,云原生提升资源利用率的技术正在发生,这些举措都是为了提升闲置资源的利用率。

AI赋能的相关技术正在蓬勃发展,向量数据库、图智能和面向数据要素流通的一系列加密数据库都在发力。

我们除了降本增效之外还关注稳定和安全,数据容灾、备份、多个层面的数据冗余非常关键,这其中包括的全敏隐私计算也非常重要。

数据管理从2019年以来迎来了新的热潮,通信、制造和金融都有大量数据治理、数据管理相关的政策。数据管理确实很辛苦,也确实很漫长,很多机构做着做着就不想做了,投入太长,见效太慢。但有幸的是,现在国家层面DCMM数据管理成熟度模型的贯标体系促进了很多行业对数据管理的认知,增强大家在这方面的工作力度投入,目前已经完成了1000多家企业的贯标和评估。头部企业数据治理和数据管理工作进入深水区,低垂的果实已经被摘完,剩下的都是老大难的活,可能动一下就会对企业有很大影响的问题。

企业管理包括几个特点:成立专职团队,数据管理部门在大型央行已经独立,跟IT部门、科技部门并列,运营商领域也是一个很大的团队,其中有上百人甚至上千人支持,所以数据团队的职业化和专业化是一个大的趋势。数据战略从IT分化出来,尤其是DCMM明确提出具备独立数据战略相关工作,很多机构都在开展自己独立的数据战略。开展专项行动,进一步提升数据供给质量。建立统一技术平台,消除协同难点。

在数据管理发展趋势方面,DCMM已经发展成为中国数据管理方法论,共有1100多家机构完成DCMM贯标,74%的企业都是二级水平,这说明大家的提升空间还比较大,三级到四级占到25%左右,四级以上只有5%,优秀的数据管理机构还是凤毛麟角。银行、证券、保险和大型运营商、央国企都是数据管理的主力军,大家纷纷开展了相关的工作。

DataOps数据开发治理一体化能力会重塑整个数据开发范式,前几年主要是理念,从今年开始,参与整个标准和实践的机构越来越多,可能有上百家机构都在践行DataOps的相关理念和实践。我们自己推出的标准框架已经在农行、工行、中国移动做了相应的验证。

数据治理向数据资产化跃进,从资产的角度思考,这能够让高层认识到数据除了一些问题之外还有很多价值。我们通过七年的时间构建《数据资产管理实践白皮书(6.0版)》、提出数据资产运营的标准,就是为了让业务甚至外部机构都能感知到,我们不光侧重于治理,还关注持续运营。我们还要建立数据资产估值体系,目前这套标准我们虽然具备,但是很难标准化,因为数据对于每个企业而言都是个性化方案,只能通过评估更多案例来优化评估指标。

数据流通要素市场构建已经进入高速发展阶段,随着数据局的成立,相信会有很多相关基础制度得以逐一落实。流通规则就是四梁八柱,我们需要知道该干哪些事情。流通技术体系也在不断完善,包括很多控制技术、加密技术也都会逐步完善起来。之前我们认为隐私计算是足够的,现在发现其实并不够,需要一揽子的数据流通生命周期体系。

供需对接在向多行业扩展,很多央国企都有加入数据要素流通的探索环节,我们大家一起来探索数据流转和产品对外赋能。整个数据产品形态正在转变,最早提供的都是标准化产品,后来慢慢地有了大量定制化需求。我们相信这只是一个过程,未来的走向肯定还是标准化,从标准到定制再到标准的整个过程都是要有旅程的。

在数据流通发展趋势方面,公共数据是一个很大的前景,政府端一定会盘活公共数据的授权运营工作,北京、成都、海南都在积极探索公共数据的授权运营,其中存在一系列的挑战和问题,授权的规则和流程、价格机制,收益分配、安全保障等仍需继续探索。我们在TC601成立公共数据运营工作组,探讨相应的标准问题。

广告、征信是当前最大的商业数据流通场景,国内个人征信涉及大概400多亿,而美国在这方面则拥有1000多亿美金的市场。企业查询核验也有很多,现在还有一类就是将AI用于大模型训练数据,接下来将会热起来。场外流通体系不依靠交易所,场内数据交易所正在构建自己的发展体系。

我们认为,信任与合规体系是整个商业数据流通和交易的核心,数据采购方需要构建外部数据引入和管理的能力,数据输出方需要构建数据产品上线合规审计机制,其中包括对数据合作方的安全能力要求,这可能是数据泄露的短板,以及包括数据API治理能力要求。

个人数据的主要想法是把散落在各个APP的数据让一个统一的账号号管理,这个想法相当于把个人数据使用授权的能力归还给个人。我们使用数据的过程中要把隐私要求嵌入进去,落实PrivacyByDesign,考虑到隐私合规的要求,这套理念非常重要。

我们可以看到,逐渐形成了一整套可信数据流通技术体系,包括数据接入、传输、计算、销毁,隐私计算只是其中的一小部分,还需要一系列技术配合。

目前我们也在畅想,未来数据流通会不会形成一个网络,现在看到的都是点对点和中心化的,未来会不会变成自来水一样连通?因此,我们提出可信数据流通网络的畅想和倡议。

数据应用发展需要经历三个阶段:图表统计属于基本分析方法,起辅助决策的作用;数仓常态化和体系化主要需要借用数据挖掘和BI分析,起增强决策的作用;自动决策的实现则是通过BI+AI的方法,以及全域、敏捷、嵌入式的数据湖+外部数据的能力。

当前,第二阶段仍是数据应用的主流,最近两年,尤其是今年,头部机构普遍提到数据业务化赋能。大家都认为自己的管理体系包括数据平台能力已经具备,但业务感知、数据赋能的要求却还是差强人意,所以这是当前一段时间很重要的环节,即数据应用的进一步提升。

在数据应用发展趋势方面,AI技术带来了新的分析变革,以ChatGPT为例,只要我们把论文输进去便可以将其核心思想和要点都归纳出来,因此,AI增强分析可能是接下来会颠覆传统BI的方向。与此同时,企业组织架构也在发生变化,无论是一汽的数据管家还是交通银行的数据经理BP模式,都需要考虑如何让业务更加理解数据的问题。此外,数据分析的平民化一定要赋能到企业的每个小细胞,同时还要注重数据伦理体系建设,这样大家才可以形成比较普遍的道德规范。

在数据安全方面,发展基础不断夯实,当前呈现三大特点:建设思路走向体系化治理,一站式解决方案成为数据安全主流服务形态,数据分类分级成为全行业的关注焦点和落地难点。并且,我们可以看到,与数据分类分级相关的政策标准在业界中最多,同时也最难,一旦分级便会出现很多问题。

数据安全发展趋势包括三个方面:数据安全治理能力建设需求迫切,治理框架初步搭建,供大家参考。数据分类分级进入大范围落地,这是我们梳理的七步方法论,虽然数据分类分级工具逐渐成熟,但是大家要认识到分类分级的体系、规则和效果并不是一蹴而就,而是迭代、缓慢的过程。随着国标发布,数据安全风险治理提上日程,为防范数据泄露、数据篡改等安全事件的发生,落实数据安全风险的源头管控成为重点。因此,我们提出数据安全风险治理体系,涵盖风险准则建立、风险要素识别,风险评估分析,风险处置解决,风险治理改进等环节。

总结来说,在数据基础设施方面,整体创新已经完成,接下来是围绕降本增效、面向大模型、数据要素和安全能力的点状创新。

在数据管理方面,随着整体意识的激活,DataOps已经成为迫切需求。在数据流通方面,由于公共数据是当前热点,地方实践集中在这个部分;商业数据需要构建场内外结合体系,个人数据使用之道需要个人数据账号与隐私工程探索,可信数据流通技术体系目前已经初步形成。在数据应用方面,AI技术的增强会带来一个新的变化,企业组织架构需要围绕数据进行新的调整,数据分析能力在向平民化演进。在数据安全方面,数据安全防线评估和治理提上日程,体系化的数据安全治理能力成为大多数企业的选择,数据分类分级开始大范围落地,方法论和工具逐渐成熟,但仍需大量的迭代和优化工作。

责任编辑:张薇

随意打赏

提交建议
微信扫一扫,分享给好友吧。