农业大数据的共享现状与对策建议
农业农村是大数据产生和应用的重要领域之一,是我国大数据发展的基础和重要组成部分。农业农村大数据作为关系居民衣食安全、生态环保、健康医疗、工业生产的本源数据,不仅对现代农业的生产、经营、管理和服务具有流程优化和提质增效作用,而且对一二三产业融合具有耦合催化作用。但是,由于数据共享开放不足,信息孤岛、数据壁垒、数据碎片化和信息不对称等问题大量存在,直接制约了跨部门、跨区域和跨行业的互连互通、协作协同和科学决策。2015年8月31日,国务院发布的《促进大数据发展行动纲要》,2015年12月31日农业部发布的《关于推进农业农村大数据发展的实施意见》,均明确提出政府数据资源共享开放工程,并界定了数据共享开放在2017年、2018年和2020年三个时间节点的具体任务,力求在未来五至十年内实现农业数据的有序共享开放,初步完成农业数据化改造。
1、农业大数据共享现状分析
近年来,随着我国信息化的不断推进,农业数据开放共享的基础环境不断优化,形成了一批开放共享的平台和系统,但是总体来说,农业数据共享总量有限,水平亟需提高。
1.1 农业大数据共享的基础环境得到优化
信息化的不断推进优化了数据共享的环境。根据中国互连网络信息中心统计,截至2016年6月,中国网民规模达7.10亿,互联网普及率达到51.7%。其中农村网民规模达1.91亿。《中国信息社会发展报告2015》显示,2015年我国信息社会指数达到0.4351,在全球排名第88位,预计2020年前后将达到0.6,整体上进入信息社会初级阶段。在整个社会信息化水平不断提升的大背景下,农业信息化水平也得到显著提升。到2013年,我国20户以上自然村通电话比例达到95.6%,行政村通宽带比例达到91%,开展信息下乡活动的乡镇覆盖率达到85%。农业生产智能化水平不断提高,农业物联网应用示范工程不断推进,在天津、上海、安徽开展物联网区域试点的基础上,黑龙江农垦大田种植、北京设施农业、江苏宜兴养殖业、内蒙古玉米、新疆棉花大田国家物联网应用示范工程得到有序推进。农产品电子商务发展迅猛,到2015年,淘宝村发展到780个,同比增长268%,全国农产品电商平台超过3000家。2014年6月19日,“金农”工程一期项目通过竣工验收,初步建成了农业电子政务支撑平台,构建了国家农业数据中心和国家农业科技数据分中心,开发了农业监测预警、农产品和生产资料市场监管、农村市场与科技信息服务三大应用系统。自2014年农业部在北京、辽宁等10个试点省市、22个试点县启动信息进村入户试点以来,至今已建成运营近4000个益农信息社,覆盖试点县行政村的60%以上。农业部按照国家部门统计调查制度管理相关规定,已建立了30余条信息采集渠道,布置采集点上万个,涵盖生产、初加工、产地流通、农户消费等不同环节,实现省、市、县、乡四级行政网络基本覆盖,特别是基点县、不同规模调查户信息监测得到加强,初步形成日、周、月、季、年以及关键农时、重要季节定期动态采集、互动有机的信息链条。逐步建立并完善了21套统计报表制度,包括农业综合统计、农业生产和服务统计、农产品价格统计、农村经营管理、农产品加工及农业资源和农村能源环境等信息,共计报表300张,指标5万个(次)。这些基础设施的完善为农业数据共享奠定了坚实的基础。
1.2 初步形成了一批农业数据共享和发布平台
大数据背景下信息开放共享需求日益强烈。2007年我国通过了《中华人民共和国政府信息公开条例》,2015年国务院办公厅印发的《2015年政府信息公开工作要点》以及《促进大数据发展纲要》,均明确强调推进信息公开共享工作。近年来,各涉农部门分别加强了数据的开放共享工作,取得了一定的成效。国家统计局制定了《农业产值和价格综合统计报表制度》,发布历年全国、分省农业资源、农产品生产数据以及农村和城镇住户抽样调查数据,特别是人均食物消费量数据;国家发展与改革委员会建立了《全国粮食价格监测报告制度》,对外发布和共享生猪生产者价格和主要农产品批发价格等信息;商务部建立了《生活必需品和重要生产资料市场监测系统》,发布有关农产品的市场和贸易信息;国家粮食局建立了《国家粮食流通统计制度》,对外发布粮食产量数据等;农业部主要围绕生产、价格和成本收益等三大类指标开展了监测统计工作,大体上实现了主要农产品和重要生产资料的基本覆盖,自2005年起,利用“金农工程”一期建设项目,农业部建立了国家农业数据中心。2007年起建立了重要数据共享制度,市场与经济信息司每月汇总各司局主要数据,编印《农业农村经济重要数据月报》。农业部从2003年起推出的《农业部经济信息发布日历》制度,较好地发挥了服务生产和消费、引导市场预期的作用。在农业科学数据方面,2002年科技部正式启动建设国家科学数据共享工程,试点建设9个学科领域的科学数据共享平台,其中包括了农业科学数据共享中心,截至2013年底,该平台已经完成整合12大类农业学科的60个农业核心主体数据库,共计数据集700余个,占我国农业科学数据资源存量总数的80%,数据量达到3217GB。
1.3 农业大数据共享的水平有限,质量不高
从我国的涉农数据采集来看,主要是围绕生产、消费、市场、贸易、成本和库存等6个方面开展监测统计。生产方面,主要是国家统计局、农业部和国家粮食局开展监测,在大宗农产品上,共享的水平相对较好,但是涉及到小宗农产品,信息的监测和共享的相对不足,特别是当社会上出现“蒜你狠、豆你玩”等时,没有一个部门能够给出准确的信息;在消费方面,我国目前尚未建立完善的农产品消费统计调查制度,只有国家统计局通过住户调查得到部分数据,但是只是局限在本部门内部使用,其他部门很难得到,这严重影响了对消费的判断;库存方面,库存数据主要包括国家库存、商业库存和社会库存三部分,国家库存为国家粮食局掌握,但是1995年,国家粮食储备局、国家保密局联合印发的《粮食工作中国家秘密及其秘级具体范围的规定》(国粮办联[1995]161号)明确规定:“全国粮油储备总规模、实际储藏量和分布情况以及相应的资金数额”是绝密级数据,这使得库存数据无法对其他部门开放和共享;在价格数据方面,农业部、商务部、发改委和粮食局以及供销总社等分布开展了生产者价格、批发价格和零售价格监测,但是各个部门因为指标解释和调查样本不一致,很难共享,数据打架问题时常出现。从我国主要数据的共享情况可以看出,目前我国农业数据重复建设的多,开放共享的少,发布的部门多,有效衔接的少,消费库存数据缺乏,或以保密为由,不主动发布,这不仅严重影响了我国数据的公信力,妨碍了公众的知情权,也严重影响了全面科学准确的决策水平。
2.农业数据共享中存在的问题
农业数据资源本质上属于公共产品,除极少数涉及国家秘密或商业秘密的信息外,理应全部共享公开。但在实际工作中,由于体制机制束缚、技术约束和现实障碍等使得信息资源对上不对下、“以邻为壑”、条块分割,产生了信息“孤岛”和数据“沉睡”现象。
2.1 体制机制存在局限障碍
我国现行的农业统计管理体制具有集中管理与双规制运行并存的特点。集中管理表现在各部门开展统计业务均需向国家统计局审批、备案,数据发布由国家统计局进行;双轨制表现为多个部门同时参与农业统计工作。目前参与农业数据统计的部门有国家统计局、农业部、国家发展与改革委员会、商务部、国家粮食局、供销总社、中储粮和中储棉、新华社等机构。仅农业部内部,就有12个司局和9家部属事业单位同时开展监测统计工作。这种体制有助于各部门根据自身需求深入开展数据获取工作,但是也造成了数据重复采集、指标难以衔接等问题,不同部门间“不愿”、“不敢”、“不会”的情况依然较为普遍[12]。一是从部门利益出发,将数据占为部门或者个人所有,习惯于形成数据独占或垄断;二是以《保密法》为依据,往往遵循“于我有利,数字谨慎”的原则,涉密信息只能通过纸介质运转,不能触碰保密红线;三是传统的工作方式阻碍数据共享。各个部门,各取所需、各为其政,造成数出多门、相互矛盾,甚至数据打架的情况,阻碍了数据的开放共享。
2.2 共享技术支撑不足
由于历史上没有重视数据的共享,原有历史数据在数据格式、数据类型、存储类型、存储标准等方面仍然存在诸多问题。一是缺乏共享标准体系,没有针对不同地区、不同行业、不同领域的数据格式汇交技术,特别缺乏针对农业多源异构、结构化、半结构化数据的标准化技术和海量数据管理的模型技术;二是缺乏不同平台的整合技术。目前我国农业存在诸多网站和数据平台,但是各个平台之间层次不清晰、覆盖内容不一致,架构布局不合理、尚不能实现互联互通;三是缺乏便捷、高效的数据查询、浏览、检索、分发技术。目前我国已经开放的一些数据平台中,要么数据无法浏览,要么数据无法下载,要么数据链接不存在,平台的便捷性和可访问性较差。
2.3 政策法规建设滞后
我国在数据开放共享方面的法律法规、制度标准建设相对落后,关于共享开放原则、数据格式、质量标准、可用性、互操作性等尚未做出详细的规范,导致政府部门和公共机构数据共享开放能力不强、水平不高、质量不佳。另外,因数据开放共享引发的对个人隐私与数据安全的威胁是人们尤为关注的重点。当前大数据应用所适用的隐私与数据安全保护法规政策大多沿用多年前的法规文件。我国在农业数据共享安全方面的法律法规还不健全,对于如何利用数据、如何保护隐私,没有给出清晰的界定。在这方面应该学习国外发达国家,如澳大利亚政府于2012年7月发布的《信息安全管理指导方针:整合性信息的管理》为海量数据整合中所涉及到的安全风险提供了最佳管理实践指导。英国在其《开放数据白皮书》明确将在公共部门透明度委员会(监督各部门数据开放的核心机构)中设立一名隐私保护专家,确保数据开放过程中及时掌握和普及最新的隐私保护措施等。
2.4 共享标准规则缺乏
共享标准是形成数据共享的底层支撑。只有将元数据的标准搞清楚了,数据融合才能顺利实施。现有监测统计体系中同一个指标数据获取的标准不同,有的选择的是全面调查,有的采取的是抽样调查,有的则是参考遥感影像;在不同环节上,有的侧重于批发市场,有的反映的更多是农户环节。这些数据客观上容易造成信息监测统计标准不统一、口径不一致,造成数出多门、甚至数据打架的情况。归根结底是缺乏明确统一的顶层采集需求。现有统计体系与现实的匹配性差。如现有监测统计体系未能围绕农业部重点调控的粮、棉、油、糖、肉、蛋、奶、蔬菜、水果、水产品、饲料和农资18个(类)品种,形成一个(类)品种一套数据的监测统计制度,数据采集工作与现实的需求脱节,造成了数据的部门分割,而针对不同部门又缺乏统一的共享标准。
3.促进农业数据共享对策
要促进农业数据的共享开放,必须从共享顶层设计、共享技术突破、共享内容标准制定、共享机制完善和法律法规保障等方面进行系统设计和统筹规划。通过农业信息资源开放共享,推动资源整合,打破数据壁垒,按照“共享为原则、不共享为例外”的要求,强化数据就是资源的意识,推动全国涉农信息形成“一盘棋、一个窗口对外”的农业农村大数据共享格局。
3.1 加强数据共享顶层设计
(1)构建农业数据开放共享平台。明确国家层面农业大数据平台、中心和系统的建设任务,厘清不同层面平台的衔接配合关系,制定各部门数据共享的范围边界,明晰各部门数据管理及共享的义务和权利。推动各级政府信息系统和公共数据互联共享、制度对接和协作协同。按照《国家大数据发展纲要》的要求,在2018年之前,完成农业数据共享和发布平台的构建;
(2)构建中国现代农业基准数据共享应用体系。围绕农业农村信息综合服务能力提升,充分利用信息进村入户、12316、金农工程等推进时机,构建面向农业农村的综合信息服务系统体系。围绕农业资源要素数据共享水平提高,建立健全我国农业耕地、草原、林地、水利设施、水资源、农业设施设备、新型经营主体、农业劳动力、金融资本等资源要素数据监测体系。围绕农产品质量安全信息服务能力提升,建立农产品生产的生态环境、生产资料、生产过程、市场流通、加工储藏、检验检测等数据共享机制;
(3)构建农业经济运行6大核心数据共享体系。重点是围绕粮棉油糖、畜水产品、水果、蔬菜等18个重要农产品,建立农业经济运行6类核心数据体系。
3.2 完善数据共享技术体系
在“云物移大智”(即云计算、物联网、移动互联网、大数据、智慧城市)时代的信息共享必须要有多种数据共享技术的支撑。
(1)数据标准化技术。包括农业数据的清洗处理技术,农业数据资源编目技术和数据格式规范技术等。其中数据清洗不仅要通过人工校验,还要开发数据清洗模型和算法,通过数据间的相互印证和逻辑关系校准异常值,补齐缺失值,形成规范统一的元数据。
(2)共享系统对接技术。针对跨平台、跨部门、跨系统的不同需求,亟需研究高通用、可伸缩、易扩展的平台对接技术,实现结构化、半结构化和非结构化数据的对接,实现数据机器可读可记。研发数据融合模型和资源交换技术体系,包括统一的通信协议、消息处理机制以及业务交换流程等;
(3)数据存储技术。针对海量数据的实时性、快捷性调用需求,基于传统的数据库,研究开发基于hadoop和Mapreduce等平台的云存储技术,以及开发数据一体机,实现存储与计算的并发运行。
(4)海量数据检索技术。针对数据产品多源性、海量性和繁杂性特点,规范和统一数据文件管理方式,开发能够支持海量影像数据的快速调用、动态显示的模糊检索和精准检索运算技术,包括布尔检索,逻辑检索、截词检索、临近检索和字段限制检索等;
(5)共享数据安全技术。综合利用防火墙技术、入侵检测技术、安全评估技术、防病毒技术等,建立完整的、立体的、多层次的系统安全防御体系。
3.3 制定数据共享内容标准
数据标准是数据实现共享的基础支撑条件。推进现代农业数据标准体系建设,亟需建立农业数据基础标准、采集标准、质量标准、处理标准、安全标准、平台标准和应用标准等。
(1)农业数据基础标准包括元数据标准、数据标准术语、交换格式标准、转换标准和数据参考模型等;
(2)农业数据采集标准应该涵盖农业数据采集分类目录、采集对象标准、采集指标标准和采集流程标准等;
(3)农业数据处理标准包括数据整理标准和分析标准等;确保农业数据整理、共享和分析等环节的规范性、完整性、重复性、准确性、一致性和同步性、及时性和可用性、易用性和可维护性等。
(4)农业数据质量标准要从数据规范、完整性、重复性、准确性、一致性和同步性、及时性和可用性、易用性和可维护性等方面制定质量评价标准、溯源标准和质量评估方案;
(5)农业数据安全标准,是确保数据生命周期安全的保障,应该包括网络安全标准、系统安全标准和农业数据战略保护标准等。
(6)农业数据平台标准主要涉及数据库产品标准、非结构化农业数据管理产品标准、可视化工具标准、处理平台标准和数据平台测试标准等;
3.4 完善数据开放共享机制
建设涉农部门、涉农行业、涉农领域信息共享机制,逐步实现上下级、部门间、跨领域的农业数据信息共享、发布和开放利用。
(1)建立涉农数据资源共享协商机制。针对涉农数据共享和交换的内容、范围、用途和方式,开展专家会商,供需协商。除依法确定不能共享的信息外,信息提供单位应当免费、及时和全面地共享涉农数据;
(2)建设农业数据资源共享目录,加强涉农数据资源整合,避免重复建设。制定农业数据开放共享的日程表,提前向社会公告全年数据公布的具体内容、时间和渠道,保障社会公众知情权和公共数据获取权;
(3)建立农业数据分析与共享规则。各个共享部门共同商定数据共享规则,保留即时访问的系统接口,并就有关数据分布式上传和整理形成一致步骤;
(4)建立信息安全保密协议机制。各部门、各单位在涉农数据资源共享过程中应当加强涉农数据资源管理,统筹考虑信息安全,健全涉农数据安全监管机制,妥善保管涉农数据资源,确保共享信息资源的安全;
(5)探索建立权威透明的农业信息发布机制。确定信息发布主体、发布内容、发布时间、发布渠道,形成“一个部门、一种声音”的格局,通过开放促进共享。
3.5 加强数据共享法制保障
法律法规是实现数据共享持续发展的法律保证,主要涉及运行管理、数据管理、各用户的权利与义务以及工作组织形式等。
(1)建立农业数据共享法律制度体系。针对共享的内容、标准、范围、权利和义务,制定一套完整的规章制度,解决数据共享中无法可依,有法无保等问题,为共享技术的实施扫清障碍,如美国很早就建立了“公平信息实践法则”,2012年2月29日,纽约市通过了《开放数据法案》,这是美国历史上首次将政府数据大规模开放纳入立法。2014年美国在全球大数据白皮书–《大数据:把握机遇,守护价值》中提出了《消费者隐私保护报告》来进一步强化对大数据背景下对隐私保护的立法;
(2)建立大数据安全评估体系。建立现代的监管制度和评估体系,明确参与单位职能定位,做好大数据平台及服务商的可靠性及安全性评测、应用安全评测、监测预警和风险评估。
(3)建设重大风险识别大数据支撑体系。研发网络安全威胁特征、模式追踪、分析技术和模型方法,实现对网络重大风险的及时识别与有效防护。
4.结语
总的来说,我国在农业大数据的开放共享上仍然存在总量偏低,可机读性差,数据更新比例低等问题,在数据开放共享的道路上存在体制机制、标准技术、法律法规等方面的困难,但是从长远来看,农业大数据的开放共享是必然趋势。数据的开放共享将从政府的推动开始,通过整合跨层级、跨部门、跨领域的信息,实现数据的互联互通,通过搭建开放式、协作式平台,实现创新的协作协同,通过众包众筹、创新实践实现农业数据的共享共治。
作者:
(王东杰 李哲敏 张建华 许世卫)
王东杰,助理研究员,博士,研究方向为农业大数据分析。[中国农业科学院农业信息研究所]
许世卫,研究员,博士生导师,研究方向为农业信息分析。[中国农业科学院农业信息研究所]
责任编辑:陈近梅