打造中国首个大数据领域词典!贵阳高新区企业助推大数据发展再上新高度

数据观  •  扫码分享
我是创始人李岩:很抱歉!给自己产品做个广告,点击进来看看。  

“在数典平台构建方面,目前大家有没有遇到什么问题,或者什么好的想法,讲出来交流一下......”3月3日,记者走进位于贵阳高新区的中电科大数据研究院有限公司(以下简称“大数据院”),技术人员正在围绕数典工程展开激烈地讨论。

“数典工程简单来说就是打造一本大数据领域的词典,就像我们经常使用的新华词典一样,是用于规范大数据技术发展与融合应用的一种基础工具。”大数据院刘汪洋博士介绍到。

随着数字经济浪潮席卷全球,大数据产业“炙手可热”。在大数据产业蓬勃发展的同时,伴随着数据释义与内容格式不规范、数据标准难统一等问题,严重制约了大数据资源整合和规范发展。

“中文有辞海,药学有药典,但大数据却没有类似的系统性词典。大数据词典的缺失,为数据规范定义、统一标识以及数据融合应用等带来巨大的困难,造成数据‘难用、滥用、混用’等现象。”刘汪洋表示,打造数典是一项承前启后的基础性工程,对巩固大数据成果、引导大数据规范发展具有重要的意义。

2019年,“数典”这一概念首次在数博会上被提出,同年5月,大数据院启动“数典”策划论证工作,针对数据释义与内容格式不规范、数据标准难统一等问题,提出了打造中国最大规模的数据基础资源集智平台——数典工程,秉承“工具化、平台化、开放化”的建设理念,构建以数典理论为基石、以大数据词典为核心、以数典平台为载体,以标准规范为保障并拓展多项数据服务的“4+N”体系架构。

据了解,大数据院是中国电子科技集团有限公司与贵州省、贵阳市政府携手打造的大数据领域的协同创新平台,是国家技术标准创新基地(贵州大数据)政务大数据专委会的牵头单位,目前参与了3项国际标准、7项国家标准,以及20余项地方、行业标准的编写。

“目前,我们在使用数据资源进行融合应用时,有大量的资源和精力都花费在数据清洗上面,这很大程度上降低了数据利用效率。就相当于一个句子,你用英语说了前段、我用德语说中段、他用中文说尾段一样,虽然含义上是那个意思,但却组合不起来,需要先翻译成同一种语言。”刘汪洋说,数典工程建设最突出、最直接的作用在于让数据资源标准化、规范化,能够直接使用,提高数据的利用率。

如今,大数据院采用“理论研究+工具研制”相结合的工作思路,已累计收录了术语词条约1.8万条,涵盖了信息技术、大数据技术及其大数据行业领域,同时构建了通用领域数据描述模型约200个,以及公安、检务等行业领域描述模型50余个。目前,正积极梳理构建“互联网+政务服务”领域数据描述模型。为了更好地开展数据描述模型构建和管理,大数据院已完成数据模型管理及可视化工具研制,有力地支撑大规模数据模型存储与管理。

下一步,大数据院将持续推进“数典工程”理论研究和相关工具的研制工作。同时,计划与社会各界一起打造“数典”开源社区,提供在线权威性解释、专业化推荐、用户在线交流等服务,提高政府、企业、社会组织、个人等各方在大数据领域的用词规范性和共识度,并以“众包”模式持续推进数典的更新维护和优化完善,最终实现社会资源集智和知识赋能,助力升华贵阳大数据建设成就,扩大“中国数谷”影响力,引领大数据发展再上新高度。(记者 杨唯)

责任编辑:张薇

随意打赏

提交建议
微信扫一扫,分享给好友吧。