从数据湖到智能湖仓系统,品高积极探索大数据新时代
不久之前引起热议的《三体》电视剧中,扩写了原著一段简单而又发人深省的文字:画面庞杂精细的《清明上河图》与一张近乎空旷的天空照片相比,哪一个信息量更大?《清明上河图》再恢弘,终究是画作,所用的技法、笔墨都有迹可循;天空的照片看似空无一物,然而作为真实拍摄的照片,若不拘于分辨率,细节处处蕴含信息,且规律难觅,所包含的信息量至少比前者大一至两个数量级。
现实之中,传统数据就如同《清明上河图》,获取方式固定、种类单一、数据量较小,价值体现在专有领域内;而进入信息时代,几乎所有的活动都可以被数字化,海量的各种数据在不断地生产、存储、使用中,形成了庞杂繁复的“大数据”——就像那张天空的照片,每一条消息、图片背后都包含着海量信息,可挖掘性极强,价值不可估量。对于已经成为了数字 经济 核心关键要素的数据,如何更好地进行数据存储、管理、治理、分析,激发数据要素潜能、释放数据真正价值,不仅是挑战,同样也是机遇。
耕耘数据领域十余年,作为专业的云计算与行业信息化服务提供商,品高股份以数百个项目的技术与经验总结为基石,沉淀出从数据分析到数据湖、再到智能湖仓系统的多样化产品,为品高云计算全栈体系添上浓墨重彩的一笔。
BingoInsight:以云原生重新定义大数据
在大数据的浪潮下,数据湖(Data Lake)兴起于2010年,是可以存储大量的原始数据、无需事先对数据进行结构化处理的存储库或系统。不同于存储结构化数据的数据仓库(Data Warehouse),数据湖可以同时存储结构化数据、半结构化数据、非结构化数据和二进制数据。
品高股份从2009年开始接触数据分析领域,为行业客户提供基于大数据的可视化BI分析、业务支撑能力;但早于数据分析之前,品高股份便已投入云计算技术的自主研发,并于2010 年 2 月就获得了私有云操作系统商用版本著作权。深厚的“云基因”,让品高的大数据产品在设计之初,就充分考虑如何利用云的优势,充分利用和发挥云平台的弹性+分布式优势,最大限度释放数据价值。
2015 年,品高股份在面临某省级公安多警种、省市区多层级的复杂数据生态问题时,对大数据平台的研发有了一定的思考。结合多年的云计算自主研发经验、实践经验和敏锐的技术趋势研判,品高股份认为, 大数据要有效释放价值,需要解决跨层级跨行业跨领域的数据互联互通问题,构筑成熟的数据管理能力,同时结合云计算的优势,为数据管理和运用提供支撑 。2016 年,品高云数据湖管理平台(BingoInsight)从云中应运而生。
云原生理念下的BingoInsight,采用存算分离架构、通过云原生的存储加速数据访问,通过云原生的计算智能调度资源、通过云原生的网络保障数据安全,为政企客户跨部门、跨组织及跨行业的数据共享提供普适性的基础数据支撑环境,构建可持续发展的数据生态。
当然,品高股份在云原生及大数据领域的探索,远不止于此。
聚焦政府行业大数据,打造品高智能湖仓系统
“十四五”规划中提出,要提高数字政府建设水平,将数字技术广泛应用于政府管理服务,推动政府治理流程再造和模式优化,不断提高决策科学性和服务效率。随着数字政府和新型智慧城市建设的不断推进、国家多项针对政府应用大数据政策的出台,政务大数据正在持续受到关注。
然而,受制于早期信息化技术的局限性,政务大数据平台建设存在多个难点。首先,各级政府缺乏全量数据集中管理支撑平台,数据孤岛显著;数据管理方面,非结构化数据无集中管理和使用、政务历史档案数据无集中数字化管理;此外,政务应用创新存在缺乏多元异构数据支撑、数据利用不充分等问题。
面对重重阻碍,品高股份基于标准BingoInsight产品,运用云原生的优势,对基础功能进行打散重组、升级改造;同时根据政府客户需求,定制化开发功能,在政务领域推出大数据解决方案——品高智能湖仓系统。
在湖仓一体架构中,“湖”是指一种用于数据存储和管理的架构,它可以实现海量数据的管理和处理,并具有良好的扩展性和可靠性;“仓”是指一种用于数据处理和分析的技术,它可以实现快速高效的数据处理和分析,并具有高灵活性、可扩展性和可靠性。
智能湖仓一体架构设计的目的是将湖与仓的优势充分结合,构建一个可以实现数据存储、处理、分析和展示的高效系统,以此有效解决传统技术栈的瓶颈问题、提高系统的运行效率和管理效率。该架构拥有灵活性、可扩展性和可靠性等特点,并且可以支持大数据处理、机器学习、深度学习、自然语言处理等技术,以满足政府行业客户多样化的业务需求。同时,该架构能够有效解决政府行业客户目前在数据领域遇到的实质性问题,例如数据存储和处理的成本降低、数据安全性的提高、数据分析的准确性提高和数据融合的效率提升等。
品高智能湖仓系统总体由数据湖、数据仓库以及服务门户构成。不同于单独的数据湖或者数据仓库,也不是简单地直接打通数据湖与数据仓库,品高智能湖仓系统能够融合数据湖与数据仓库的优势点,让数据在数据湖、数据仓库之间无障碍流通,通过多租户的运营方式,在全量政务数据高效入湖的同时实现有效治理、有序管理、便利共享。
在总体设计方面,系统以数据湖的开放性,实现原始数据进入系统后的预处理、存储,以及治理好之后数据的存储与管理,而后将预加工的数据推送给数据仓库;再以数据仓库作为面向主题、集成、非易失的数据集合的特性,对数据进行治理、分析、安全管控,形成各类专、主题数据重新入湖共享;在数据的共享与开放方面,系统还通过服务门户的统一租户、统一数据目录、统一服务目录统管数据湖与数据仓库中的原始、专、主题数据,为平台用户提供统一访问、数据、服务能力的“一站式”数据服务。
在数据存储与治理方面,品高智能湖仓系统以数据主题为执行单位,通过数据湖对海量复杂的、分散的、碎片化的数据进行汇集,抽取相关数据进行数据清洗与治理,经过沉淀、分层、归集后,形成高价值、规范化的的专、主题数据,高效输送给数据仓库,提升应用集成的效率和质量。
在业务层面,业务分析人员等使用者可以运用数据仓库专注于业务之间的逻辑分析,减少精力分散,降低了用户使用难度;通过智能湖仓系统能够将经过数据分析后所产生的数据形成BI、分析报告等,使得用户可以快速看到数据展现效果,有效提升数字化决策的效率,释放数据价值。
身处数字技术迅猛发展的时代,如何在海量数据的洪流中、挖掘数据这一新兴生产要素的潜在价值,成为各行业的核心重点之一。秉持“中国政企云计算新价值发现者”愿景,以“让中国政企数字化云端之路更简单”为使命,品高股份在备受关注的新一代大数据技术架构“湖仓一体”领域积极探索,并以品高智能湖仓系统,帮助客户构建可持续交付的数据生态链,助力政企行业数字化转型往纵深发展。