数字化转型及大数据技术
数字 经济 在国民经济社会发展的重要性日渐凸显。“数字化”一词多次在政府工作报告中被提到,“十四五”更是明确了“加快数字化发展,建设数字中国”的远景目标,突出了数字经济的战略性地位。作为推动数字经济发展的中坚力量,企业的数字化转型需求也在不断增长,与此有关的云计算、大数据和人工智能为代表的新一代信息技术也在不断创新迭代。
何谓数字化转型?
企业数字化转型包括两个方面,一是客户体验的数字化,即以客户为中心,更接近、满足、赢得和持续赢得客户;二是运营管理数字化,及定制产出、缩短渠道、柔性供应、敏捷服务、集成布局。其特点是以云、大、物、智、移等技术结合运用新技术为业务提供创新的价值,业务和管理的全过程数字化为核心。
2021年以来,数字化转型已经成为国家战略。十四五规划提出,迎接数字时代,激活数据要素潜能,推进网络强国建设,加快建设数字经济、数字社会、数字政府,以数字化转型整体驱动生产方式、生活方式和治理方式变革。根据规划,企业数字化转型必然驱动“四化”企业成为市场强者:
1.智能化业务决策,精准实时把握客户需求、合理化资源配置;
2.一体化运营管理,部门横纵端到端协同,及时高效解决运营问题;
3.生态化价值合作,连接和整合价值链,共享共赢发展;
4.敏捷化变革创新,技术契合业务能力和水平,动态引领市场。
数字化转型历经了从 “资源自动化”到“应用多样化”的转变。随着数字化的普及,数字社会的复杂度越来越高,企业越来越需要低门槛、高便利性的数字化工具。未来,还应进一步鼓励和支持 互联网 、云计算等平台,积极发展云原生和低代码开发等新兴技术方法,降低技术和业务的耦合性,让企业尤其是广大的中小企业一定程度上避免底层复杂的技术开发,专注于 商业 本身,快速、灵活地部署应用。
大数据技术发展
大数据总体上可以划分为以下四个阶段:数据库时代、探索期、发展期、普惠期,目前我们正处于大数据的普惠期,在这个时期,大数据应用渗透到各行各业,大数据价值不断凸显,数据驱动决策和社会智能化程度大幅提高,大数据产业迎来快速发展和大规模应用实施。
随着大数据发展,也衍生出了一系列的大数据架构,从数据库、数据仓库,到数据平台,再到数据湖、湖仓一体。
(1)数据仓库、大数据
早期系统采用数据库来存放管理数据,随着大数据技术的兴起,设计了一套适合结构化数据的数据存储管理系统,即数据仓库。但是许多现代企业必须处理非结构化数据,半结构化数据以及具有高多样性、高速度和高容量的数据。数据仓库不适用于许多此类场景,并且成本效益并非最佳。
直到Hadoop的出现,有了处理大规模数据的技术和能力,大数据在这一刻才真正的成为我们口中所说的“大数据”。Hadoop 开启大数据时代后,传统的关系型数据库就从时代舞台的中心退居了幕后。等到非关系型数据库诞生后,人们甚至更激进地提出了“NoSQL”运动,试图抛弃 SQL 及其关系型数据库,但是随着大数据热潮的褪去,非关系型数据库的缺陷渐渐为人所知,人们开始重新审视关系型数据库,并认为“NoSQL”其实是“Not Only SQL”,而不是“No SQL”。
(2)数据湖、湖仓一体
随着当前大量信息化发展和电子设备产品普及,产生大量的非结构化数据,所以设计了一个比数据仓库还要大的系统,可以把非结构化和结构化数据共同存储和做一些处理,这个系统叫做数据湖。数据仓库的成长性很好,而数据湖更灵活。数据仓库支持的数据结构种类比较单一,数据湖的种类比较丰富,可以包罗万象。数据仓库更加适合成熟的数据当中的分析和处理,数据湖更加适合在异构数据上的价值挖掘。
数据湖虽然适合存储数据,但缺少一些关键功能:它们不支持事务处理,不保证数据质量,并且缺乏一致性/隔离性,从而几乎无法实现混合追加和读取数据,以及完成批处理和流式作业。由于这些原因,数据湖的许多功能尚未实现,并且在很多时候丧失了数据湖的优势。
因此“湖仓一体”的概念应运而生,它打破了数据仓库和数据湖之间的壁垒,使得割裂的数据融合统一,减少了数据分析中的搬迁,实现了统一的数据管理,有利于发现更多数据价值。
湖仓一体是一种新型开放式架构,将数据湖和数据仓库的优势充分结合,它构建在数据湖低成本的数据存储架构之上,又继承了数据仓库的数据处理和管理功能。而数据仓库和数据湖的融合有两个方向,第一个融合方向是在数据湖基础上增加数据仓库能力,第一种模式目前业界已经涌现了一些Lakehouse产品,如Netflix开源Iceberg、Uber开源Hudi、Databricks的Delta Lake;第二个融合方向是数据湖和数据仓库协同起来,向湖仓一体的融合分析架构发展,即逻辑数据仓库LDW,也就是国双的新产品“国双GDP数智平台”。湖仓一体可以认为是逻辑数据仓库架构理念下针对Hadoop数据湖和MPPDB数据仓库的融合架构。数据对用户完全实现虚拟化,以逻辑统一的数据系统为企业提供数据分析服务。平台层面,Hadoop与MPP具备数据共用和跨库分析能力,通过互联互通、计算下推、协同计算,实现数据在多个数据平台之间透明流动。
大数据结构发展的同时,大数据领域相关的技术也在不断涌现,它们成为大数据存储、计算的有力武器。
存算分离
2004-2006年间,Google陆续发表了Google File System、MapReduce和BigTable三篇革命性技术的文章,奠定了分布式系统理论基础。随后以这三项技术为核心的开源框架如雨后春笋般涌现出来,Apache基金会开发的分布式系统基础架构Hadoop便是其中之一。由于Hadoop能够在开发者不了解分布式底层细节的情况下,利用集群的计算和存储能力,对大量数据进行可靠、高效、可伸缩的分布式高速运算,成为了大数据分析时代驱动数据价值挖掘和变现炙手可热的技术之一。而在Hadoop三代版本的演进中证明了存算分离已成为大数据建设的必然趋势。
存算分离针对存算一体的弊端进行优化,为企业控制成本和提升数据运行的效率提供了新的思路,带来了四大价值:
1.可靠性提升:外置共享存储可靠性结合云原生故障隔离和迁移能力,解决一体化方案可靠性短板,并为降低资源冗余提供基础;
2.资源优化:解决数据快速移动,实现计算、存储弹性扩展,按需分配,减少因可靠性、运维能力不足造成的硬件冗余;
3.能力复用:使用共享存储成熟的备份恢复、SSD介质延寿、亚健康等能力,快速提升数据库整体解决方案能力,节约开发成本;
4.架构先进:基于开放生态存储底座,可快速实现云原生数据库能力,不影响上层应用,实现平滑演进。
随着5G、分布式技术、云计算的不断发展,及各行业数字化转型的不断深入,数据库云化、数据库云原生架构已成为趋势,计算、存储分离,采用共享存储的方式是数字化转型企业共同的选择。
流批一体
自 Google Dataflow 模型被提出以来,流批一体就成为分布式计算引擎最为主流的发展趋势。流批一体意味着计算引擎同时具备流计算的低延迟和批计算的高吞吐高稳定性,提供统一编程接口开发两种场景的应用并保证它们的底层执行逻辑是一致的。对用户来说流批一体很大程度上减少了开发维护的成本,但同时这对计算引擎来说是一个很大的挑战。
作为 Dataflow 模型的最早采用者之一,Apache Flink 在流批一体特性的完成度上在开源项目中是十分领先的。Flink 遵循 Dataflow 模型的理念: 批处理是流处理的特例。不过出于批处理场景的执行效率、资源需求和复杂度各方面的考虑,在 Flink 设计之初流处理应用和批处理应用尽管底层都是流处理,但在编程 API 上是分开的。这允许 Flink 在执行层面仍沿用批处理的优化技术,并简化掉架构移除掉不需要的 watermark、checkpoint 等特性。
在大数据场景下经常需要数据同步或者数据集成,也就是将数据库中的数据同步到大数据的数仓或者其他存储中。全量的同步和增量的同步实际上是两套技术,需要定期将全量同步的数据跟增量同步数据做 merge,不断的迭代来把数据库的数据同步到数据仓库中。
基于 Flink 流批一体,整个数据集成的架构将不同。因为 Flink SQL 也支持数据库(像 MySQL 和 PG)的 CDC 语义,所以可以用 Flink SQL 一键同步数据库的数据到 Hive、ClickHouse、TiDB 等开源的数据库或开源的 KV 存储中。在 Flink 流批一体架构的基础上,Flink 的 connector 也是流批混合的,它可以先读取数据库全量数据同步到数仓中,然后自动切换到增量模式,通过 CDC 读 Binlog 进行增量和全量的同步,Flink 内部都可以自动的去协调好,这是流批一体的价值。
大数据应用
大数据计算发展至今,已经形成了一个百花齐放的大数据生态,通用计算、定制开发,批量处理、实时计算,关系查询、图遍历以及机器学习等等都可以找到各种对应的计算引擎来协助我们处理这些任务。
大数据无处不在,包括 金融 、 汽车 、餐饮、电信、能源和娱乐等在内的社会各行各业都已经融入了大数据的印迹。
国双自研的大数据平台也在工业、能源、安全、司法、财税、交通等上百个数字化、智能化转型的项目实践中得到检验。
(1)某大型能源集团大数据平台项目
本项目是对某大型能源集团公司“十三五”信息技术总体规划中的综合管理类项目,构建了生产经营数据汇聚、共享和应用的云化服务平台,具有集团级数据,具备大数据计算、数据挖掘、敏捷分析、可视化等能力,遵循平台统一,应用自主的原则为集团各层级提供数据、应用、工具的共享服务,各类数据分析应用都基于数据仓库和大数据平台进行实现。
平台为各个应用提供了稳定高效的数据,发挥了大数据分析平台的应用价值。目前已采集196套数据库系统和所需的企业外部数据,支持上万个数据周期处理作业流,结构化数据量超过2PB,非结构化数据近1PB,形成21个一级主题域、70个二级主题域、近500个三级主题和3000多个业务实体的数据资源目录。
项目完成了Zeta、敏捷BI、管理驾驶舱、云平台、数据挖掘工具箱、平台监控、数据监控、应用监控、8套安全产品及需求定制开发,助力企业完成信息化、数字化的目标。
(2)GDP产品诞生
大数据产品百花齐放,国双作为中国领先的企业级大数据和人工智能平台软件厂商也不落其后。2008年,国双推出了第一个数据智能产品WD,自2009年以来,基于大数据平台发布了一系列产品和解决方案,2019年,Zeta大数据平台产品也正式投入使用。
2022年,Zeta改版升级成为国双大数据平台(Gridsum Data Platform)。GDP是一款为企业、行业提供高性能、敏捷、智能化的大数据平台,以“数据驱动”为核心,在企业数字化转型过程中,通过“数据智能化,协同一体化、应用场景化、创新敏捷化、模式生态化”持续构建企业的核心数据能力,支持企业快速、高效、低成本进行业务创新和增强的企业架构。
后续我们将推出系列文章详细为大家介绍国双GDP大数据平台的设计思想与特点,敬请期待。