高德地图技术副总裁于志杰:真正的未来地图是“活地图”
“今天用户需要的是0秒更新、变态准确的地图,一张活的地图,而这一切,都基于活的数据。”高德地图技术副总裁于志杰在谈到高德地图时说道。
于志杰表示,基于高德自主采集能力(负责深度和准确度)的提升、以及众包大数据(负责广度和鲜度)的运用,高德地图正在建立研发真正的未来地图——“活地图”。
具体来说,高德地图活数据的核心是建立在UGC的数据广度和实时性上。
众包大数据:
用户在使用手机高德地图(或者高德地图车机版,但目前量不如手机版大)时,会将在路上行驶的GPS定位进行实时回传。这样,高德地图就会实时捕捉交通动态,实时获知各条道路的畅通情况、行驶车速、拥堵原因及事故、管制、施工等交通事件,并根据通行情况对用户的导航路线进行调整或提醒。据介绍,高德地图精准的实时交通大数据中有78%来自于UGC众包数据,22%来自于出租车、物流车等行业浮动车辆。高德地图的实时交通动态事件数据中,更有85%来自于用户上报,其余来自于交管和政府。
高德在获取实时数据后会再将处理过后的数据回馈,反哺道路、POI、导航、公交、步行等地图基础数据,并完成新路发现、老路清除、交通规制信息变化识别、园区内部路发掘,以及道路通行等级判断等数据更新。
上面这些UGC数据,除了来自C端用户,还来自高德的B端数据联盟,包括由高德自身、阿里巴巴集团、政府交管及开放平台服务的第三方。
比如,高德地图通过其交警平台与全国近百家交管部门合作,互相提供信息和数据,还与数十家交通广播联合成立了“空中交通信息联盟”,为交管和交通广播提供全景路况信息;除此之外,高德地图还能拿到阿里的数据,比如菜鸟的运单数据、物流车数据,和口碑的外卖订单数据。
自主采集:
据介绍,为了让专业采集员和采集设备采集的数据也‘活’起来,达成地图数据更新速度无限逼近T+0的目标,近年来高德地图的自主专业采集能力也开始强调三个方面的改良:一是在线化,二是自动化,三是智能化。
在线化层面,高德地图将外采、内业和反馈全链条打通,实现了采集生产平台100%在线化,并建立起全流程质量控制,进行数据增量检查、增量编译、要素集发布;自动化层面,高德地图实现了低成本、高覆盖的自动化采集,和图像、影像、激光点云的高度自动识别,并进一步实现了数据自动差分与融合,提升生产效率;智能化层面,高德地图通过采集数据建立模型,利用机器学习实现内业的任务智能切分、人员智能匹配和外业的智能采集调度,使采集生产更智能、高效。
以下是高德地图就一些问题的回答:
高德地图在怎样采集数据?采集的数据属性是怎样的?
于志杰:除了通常大家了解的采集车以外,还有高精采集车、自行车,背包、无人机,除此之外还有众包采集和新研发落地的智能采集。正是因为我们有这么多的采集手段,并且经过了14年的积累,目前为止我们有6000万的POI,790万公里的导航道路数据,这些可绕赤道197周。这些就够了吗?其实从用户角度来说不一定多就是好。其实对于各行各业对于数据需求是不一样的,所以为了满足各类行业的用户需求,我们的道路属性丰富度非常高。我们有超过400种的道路属性信息,满足各行各业的需求。同时为了地方用户的满意度或者用户体验,我们拥有横跨61个城市,超过13000平方公里的三维模型数据。
上面提到的是自主采集,自主采集的目标是什么,如何达到?
于志杰:自主采集生产进化的终极目标是T+0。现实中一个地方发生变化,从这个地方变化开始到展现给用户,我们希望这个时间无限缩短,实时反馈给用户。自主采集生产进化的终极目标要经过三个阶段,在线化、自动化、智能化。
先说在线化,主要是打通外业、内业,反馈整个联路,为智能化、自动化奠定基础,这个过程中积累海量的操作人员的个人用户数据和采集数据信息,为以后的智能化奠定良好基础。
自动化是在在线化基础上利用图象识别数据,数据自动处理,反馈信息自动处理,提高产业线效率,进一步加快数据浏览周期。
智能化刚才说了,在线化的时候积累很多个人的操作人员的用户数据,行为数据,加上采集数据,可以在这个基础上建立模型,在线可以智能地切分业务,智能将任务与人进行匹配。在外业可以对于采集实行智能调度。
自主采集来的数据会直接发布么,如何保证质量?
高德地图数据中心总经理李艳霞:我们整个流水线上的数据最重要的就是要保证质量。所以在我们这一条活数据生产线里面我们也是非常注重质量的,在质量检查方面我们有这么三个不同的维度,在每一个要素级信息在录入的时候都有一个增量的检查,这个应该是国内首屈一指的,应该是我们最开始先投入到生产线上的。在每一个环节完成之后我们还有一道质量墙。穿过这一道质量墙质量才算过关,最终数据发布的时候还有一个全量检查的机制。我们通过这样层层把关的机制能够保证我们的数据在整个数据处理过程中是一个高质量的,我们自己内部控制都在99%以上。
上面是自主采集,大数据众包是怎样做的?
李艳霞:所谓大数据众包,就是大家在使用过程中用户给我们反馈回来的,包括轨迹点、速度、方向等等数据。在我们内部可以把它转化成对于轨迹的热力图,流量监测,实时交通流量监测图等等,通过这些可以进行大数据挖掘,可以去发现新路,发现道路的过期,发现哪些道路在预测,包括信息,单行线等等。
我们看一些具体例子,比如我们可以对比核实影像,发现这有一条新建道路,我们可以通过这个去发现哪道路正在建设,然后可以调动外业核实体系,快速发现这个新路,把它补充上来。
同样的,我们还能经过大数据挖掘,发现近期很多车不从这儿走了,很多轨迹是消失了,我们可以判断这条路是不是被废弃掉了,再把这些信息传递到高德采集体系里面去,回调资料,确认这条路是不是废弃了,比如很多地方的线道、省道,会修一些新的省道,原来旧的道路就会被废弃掉,这些信息都可以很快被发现。
再说小区的例子,一个是小区的内部路,有一些是车可以通行的,形状非常清晰的。另外对于门的信息,我们可以通过行驶发现,可以发现哪些门可驶入、可驶出的方向,这些路都可以通过实际采集验证。再比如小区有个禁止通行的标志牌,但是当我们发现有车能够通过这儿进行转弯的时候,监测到这个信息,高德就可以核实当时这个地区的禁止牌是否有效了。
我是36氪汽车小组负责人卢姿伊,负责特斯拉、无人驾驶、新能源、车联网、出行及后市场,欢迎直接与我联系,微信:17701221940
Attention!!!36氪汽车小组正在招募实习生一枚,负责自动驾驶方面新闻,包括但不限于特斯拉、Google、Uber以及各大车厂自动驾驶项目,自动驾驶创业公司等。有技术背景,能举一反三、并深入浅出地解读趋势。定期做汽车行业整合报告。