对话交通运输部科学研究院叶劲松:生产全国交通大数据的团队如何运作?

数据观  •  扫码分享

交通运输部科学研究院交通信息中心的数据团队负责人叶劲松是《数据团队建设全景报告》系列专访中很特殊的一位。他所在部门肩负着交通行业统计数据生产和交通运输部综合交通运输大数据应用中心数据治理的任务。不同于企业CDO或科研团队的数据骨干,他所在的数据团队统筹着全国29个省份的高速公路的车辆通行数据,他所生产数据的服务对象是交通运输部。而他对数据和数据团队的理解,也从一开始就基于一个相对更宏观的角度。

“我发现自从大数据这个概念热了起来,我们部门的角色就发生了变化,现在不管是谁在数据应用方面有了什么问题,不论是大数据的技术问题,还是数据治理的方法,甚至业务应用方面的问题,都会来找数据部门。”叶劲松说。从我们的沟通中能够感觉到,他更像是整个部门的“产品经理”。全国高速公路收费管理涉及的29个省,他不仅需要跟每个省的2-3个部门打交道,还需要对接数据分析部门和交通运输部的数据需求,并精确地拆解任务,组织团队完成各项工作。“‘十三五’规划给我们的工作提出了更加明确的要求——依托大数据技术进一步推进统计信息管理系统与业务管理系统的互联互通与标准化,在此基础上加强数据资源的关联分析和融合利用,提升行业决策支持的能力。”叶劲松说道。

   数据是给交通运输部提供决策支持的,不能有丝毫懈怠

交通运行动态数据反映着交通经济运行的情况,进而反映了国内行业经济运行态势。在大数据时代,主管部门对交通数据有着明确的要求:“交通运输行业管理部门需要更加紧密地跟踪行业的发展动态,准确把握行业发展的阶段特征与新动向、新问题,为行业宏观管理决策提供科学依据,为研判国家经济运行态势提供支撑。”

叶劲松所在的交通信息中心(以下简称“中心”)肩负着整个交通行业统计数据的采集、处理、分析和发布工作,必须保证数据的精准、及时。以高速公路通行数据为例:

交通运输管理部门,需要高速公路运行数据作为路网运行监测的依据;

交通运输部,需要全国高速公路的车流量、货运量等数据为行业管理决策提供支撑;

国务院有关部门,需要高速公路货运量数据作为宏观经济发展态势的参考。

从叶劲松2005年进入交通运输部科学研究院工作以来,他经历了行业数据治理的三次革新。第一个阶段是行业统计数据的治理,交通运输部定期采集和处理各省的交通统计数据,包括公路、航道等基础设施的现状、新改建的情况、投资情况,以及港口生产、运输生产的情况等,统计数据大多是按月度或年度变化的汇总数据。第二个阶段是从2013年左右开始,数据治理对象变为行业运行的动态监测信息,以高速公路通行数据为例,监测数据粒度精确到每一辆在高速公路上行驶车辆的进出位置、行驶路程、车型等业务明细信息,数据更新频率也缩短为旬度,接下来还将实现数据的实时更新。第三个阶段,交通运输部要建设综合交通运输大数据应用中心,具体工作将由交通信息中心来承担,将实现交通运输部所掌握的公路、水路、道路运输等44类交通数据资源的采集与汇聚。

   图一:交通运输部科学研究院交通信息中心的数据治理的变革

面对不断升级的数据需求,叶劲松坦言,他和团队经历了从传统的统计工作到大数据平台搭建、数据收集存储和标准化建设等一系列挑战。

  参差不齐的29省数据,如何挑战高难度的数据工作?

“以前交通运输部对高速公路通行数据的要求是月度更新。我们以前的做法是每个月初采集一次,然后花10天左右的时间做数据清洗、处理和统计工作,每月中下旬再向交通运输部提供数据结果。整个工作流程大约十五天,”叶劲松解释道,“但现在交通运输部对我们的要求是每月5号提交报告,数据还不能有一点错误,所以我们必须实现数据的实时采集才有可能完成任务。”

从2013年开始,交通信息中心开始了“基于大数据技术的全国高速公路通行数据监测平台”建设工作。这个平台的数据流动路径是自下而上的,由各省高速公路管理部门、省交通运输管理部门逐级上报到交通信息中心的数据团队。

“难,太难了!”叶劲松直言。当时各省数据建设情况差异极大,因为当时每个省都是根据自己信息化基础建设的信息系统,没有统一的标准。有些信息化工作做得好的省,数据采集的技术方案可以直接跟平台的数据需求对接上。有些数据采集差的省,情况非常不乐观:“当我们发现交通运输部开始要数据了,地方上有些省还没有采集到这些数据。我们的工作不得不从技术标准化和数据标准化建设开始做起。”

  图二:全国高速公路数据平台搭建的沟通工作框架

以车牌号为例。有些省的车牌号数据是人工输入车牌号的后3位;有些省只采集了车牌号码;有些省采集了车牌号码和颜色。由于识别系统的限制,图像识别的精确度也不一样,比如把数字“7”识别成数字“1”。不同的省对免收通行费的车辆定义不同,也就是说每个省的数据字典也不同。要治理车牌数据并做标准交通信息中心的数据团队面对的是全国29个省和每个省3个部门的工作量,他们需要分别与省级交通运输厅、各地区高速公路联网收费中心和各地区高速公路管理单位做沟通、推进标准化工作。

这项工作对于数据团队来说,非常考验其沟通和协调能力。为了实现数据标准化的目标,数据团队研究提出了一套标准的数据存储、清洗、挖掘分析关键数据处理技术及整体解决方案,并组织了多场针对各省数据技术人员的业务交流,有效促进了方案的推广。为了确保方案执行,数据团队建立了数据反馈机制和考核机制:

对每一个字段制定数据审核规则,将数据定为“正确数据”和“错误数据”两种类型,并将数据审核结果反馈给各省核实或调整数据接口。

从数据时效性、数据质量、数据字典规范性等角度对各省工作进行打分、通报,促进各省不断改进工作。

   图三:全国高速公路数据平台搭建的总体业务流程

截止到2017年3月,平台终于实现了29个省高速公路通行量数据的收集和存储。2017年6月,该平台上的高速公路通行数据的数据量已超过280亿条,总容量约7TB,每月新增数据约8亿条。

   以业务的需求去建设数据团队,按照数据流程分工

“整个团队不是按数据流程划分的,而是业务驱动。我们首要的任务是完成业务目标。”叶劲松表示。以业务的需求去建设数据团队,是交通信息中心数据团队搭建的总体思路。目前该中心的总人数约90人,有60人是直接接触数据的。其中负责高速公路通行数据的是一个约10人的数据团队。“不过在分行业的小团队内部,这10人按照数据流程来分工。”

高速公路数据团队的内部分工是:2-3人偏业务,负责对接各省的数据部门,对接各省的数据需求、数据变化情况和上报情况;2人偏技术,负责数据采集系统的维护;2-3人偏分析,负责数据挖掘和分析并撰写报告;1人偏管理,负责数据治理方案和整个工作的统筹协调。“我们的工作不只是停留在采集数据,最后还要把数据用起来才有价值。”叶劲松说。基于这样合理的工作流程,我们在交通行业内首次将大数据直接用于行业统计业务,支撑交通运输部实现了利用行政业务记录直接转化生成统计数据的重大创新。

   数据团队负责人的角色也是“产品经理”

交通信息中心的数据管理工作是为业务服务的,因此叶劲松的很多工作是对接下游对数据的需求。“很多时候我有意识地提醒自己:必须在工作中强势一些。因为夹在技术团队和业务需求中间不好做啊!”他在团队中的作用是CDO+“产品经理”。一方面他要充分理解业务对数据产品的需求,另一方面他需要准确地把业务需求“翻译”成对数据技术团队的需求,同时,还要把技术团队的诉求用业务的语言跟业务人员沟通。

有些时候,业务团队不理解数据采集和技术处理的过程,所以对数据生产时间的要求非常高:“不就是把数据存到库里就行了吗?”这时就是叶劲松的强势时刻:“我需要解释为了实现这个需求,数据团队需要先摸清数据的现状、那么多省的数据还都不一样需要规范、这些数据不是能够简单地直接放在一起的、还需要写算法、还需要硬件资源的支撑等等。很多时候,领导不关心数据是怎么来的,反而对结果期望很高。”上文的数据标准化工作就是个例子,大组织中的数据工作有时是需要从标准化做起的,会非常耗时、耗资源。“如果我不站出来定义好工作要求和时限,我的团队恐怕会面临非常大的压力。”

“懂业务又懂数据的人才太缺乏了!”当被问到他的数据团队怎样升级时,叶劲松脱口而出。在他看来,为了实现更好的管理,需要建立一直合理的数据团队,在团队里培养更多的产品经理和数据科学家:“数据在我们手上,下面我们要探索如何使用好这些数据。我需要专人去思考技术平台怎么完善,数据采集方案怎么设计,怎么跟分析部门做好对接,从哪些角度去推进数据应用,怎么去把数据治理的工作很好地进行总结提炼以得到认可。”对于人才,叶劲松有如下期待:

数据相关专业基本功;

对数据技术的不断更迭地关注和学习;

有真实的数据科学的实践经验。

其中,叶劲松认为第三点最为重要:“在我面试的过程中,如果一个学生前两点很强,第三点不突出,这样的人我不敢用。因为会一些编程语言并不代表他拥有数据思维。学生在学校的毕业设计与实际的产业数据情况相差甚远。那些只会做算法的学生毕业后会发现业界大量的数据工作还停留在数据治理和清洗上,那时他们的心理落差恐怕会很大。”相反,“如果这个学生前两点偏弱,但实践经验非常突出,我认为这样的人才是可以吸纳并培养的。”

叶劲松: 高级工程师,交通运输部科学研究院交通信息中心系统开发部副主任,主要负责交通大数据技术研究和应用、全国高速公路通行大数据的采集和分析等工作。

交通运输部科学研究院交通信息中心: 交通运输部科学研究院的二级机构,成立于2001年,主要业务领域包括统计信息服务、交通统计技术研究、交通政策与经济运行分析研究、交通信息系统研发、交通发展规划与评价研究等,具体承担交通运输部综合交通运输大数据应用中心的建设任务,已在交通大数据技术研发与应用、交通运输统计信息与经济运行分析、交通信息化建设等方面形成了中心特色的优势研究领域。

注:*本文为清华-青岛数据科学研究院联合大数据文摘发起的《数据团队建设全景报告》系列专访内容。本篇内容还参考了2017年4月交通运输部科学研究院申报“中国数据标准化及治理奖”评审的文件《基于大数据技术的全国高速公路通行数据监测平台建设》。

责任编辑:陈近梅

随意打赏

北京大数据研究院对话大数据时代数据科学研究院交通大数据对话大数据
提交建议
微信扫一扫,分享给好友吧。