干货丨航运大数据的思考与实践
以下内容为“2016·中国物流大数据研讨会”上演讲嘉宾的发言节选:
演讲人: 徐凯博士,上海国际航运研究中心 港航大数据实验室主任
谢谢大家!我今天的演讲是围绕着港航的大数据分析来展开的,在之前已经有多位专家介绍了大数据在我们航运物流方面和人工智能方面的一些应用。我的演讲提纲分为五个方面,第一块想跟大家分享一下我对大数据的理解,以及它为什么对我们港行物流行业这么重要?实际上,刚才蔡总也讲到了Alphago的案例,这样的事件使得很多并不了解人工智能、并不了解智慧科学的人对人工智能更加感兴趣了。
我们翻阅过国外的一些翻译资料,包括这几年比较热门的概念:人工智能、智慧港口、智慧医疗还有智能交通,在很多时候我们都用smart这个单词,但我们今天讨论的问题,不仅仅是模拟人的智能功能,很多时候我们说的智慧是机器本身没有的。在语言学里面,智能和智慧是有不区别的,智慧是人才有的一个功能。怎么我们怎么才能由智能变成智慧呢?
今天我们所做的很多的应用,我们很难想象一个精密的机器它再精密,也只能是模拟人的一个功能,如果有一天这个机器能够像人一样的体现智慧,那么这样的机器是什么呢?有个非常有名的测试,叫做“图灵测试”,就是如果有个人通过IO接口,今天我们可以通过语音或其他方式,让这个人同时跟一台计算机和另外一个人交流,他能不能够分辨出这两个他面对的对象谁是机器,谁是人?如果他分辨不出,就说明这个机器跟人一要具有智慧。我为什么要谈这个话题呢?因为我对智慧的理解就来源于这。我们想一下我们人是怎么拥有智慧的,我们实际上通过四个环节:感知、思考、应用、交流,我们把这四种能力串联起来,就是从行为到认知再到行为的一个循环过程。在这里就对应了今天的主流技术概念,也是当代最热门的概念,比如说感知对应的是我们的物联网技术,思考对应的是我们的大数据,我们采集到这些数据后怎么从中发现规律、规则?我们又如何去应用呢?其实是在我们的制造业业中就体现为自动化;在一些电子商务行业中可能体现为运营,这块就对应为应用。最后,我们把信息应用为交流传播,这个时候我们就应用到互联网。对于这样概念,串联起来有没有可能形成一个智慧系统呢?如果我们把这个系统看得再大一点,则是有可能形成智慧的。这是我的一个观点。
刚才我们谈到了智慧,人有智慧第一就是要有敏感,就是要有听觉、触觉,聪明不是脑子转得快,聪明是眼睛看得清楚,耳朵听得清楚。所以客观世界里的一切事物,它自身在运动它的就会发生作用,这个时候当我们输入一样东西,就会反馈一样东西,于是信息就在这种交互中间产生。通过传感器或者人机交互把它拿起来,这些数据存储起来以后,就变成了数据。数据是什么?数据就是在事物交换和运动过程中间现实世界的投影。比如说,我们可以观测人的体温,我们就可以知道这个人是发烧还是正常。有了这样的数据之后,经过我们的人类大脑,或者计算机的计算,我们才会从中发现有用的信息。
遗憾的是让机器像人一样思考,实际上没有那么简单。我认为未来我们的行业,特别是物流和港航业将会呈现一种需求导向、数据驱动的发展趋势。
因为我们的数据分析对于行业来说,数据的价值在于支持经营决策。而这是一种上层建筑,今天我们能做的很多事情还是简单的相连,我们把它称作神经反射这一层面的事情。就比方说,我们今天来的“箱讯网”的徐总,他那里可能有集装箱的舱单信息,或者说是有海关的查验信息、有“欣海报关”这边的报关信息,然后这个箱子进了堆场之后,我们有箱子的提单号,这就像人我们在APP上面,我们的账号用手机做关联,但是当这个箱子上了船之后,不好意思,你可能根据厢号没办法追寻到货物流的流向,因为你要通过船公司才知道它在哪条船上。然后在船上后,它到了哪个位置,你根据船期也只能检索到一个大概。因为船东只会告诉你“劳式方案”。但是如果你想知道这条船今天航行到了哪里?你还需要知道它更多的数据,然后这些数据的整合实际上非常难。我们打通其中某一个环节就相当于做了一件简单的神经反射。从神经反射到智慧其实还有很长的路要走,但是让人欣喜的是,这些神经反射今天在我们各个行业里已经产生了很有价值的推动。
我们以前构造的系统,它们其实上是对数据的切片或者博弈,因为我们要完成一个功能,比如企业要进行财务管理,它会把数据全部拿过来之后,把那些与财务有关的东西切片出来;如果我们要进行人事管理,我们就把跟人事管理有关的数据切片出来。因为采用这种方式,我们一个人就像一束光射在地上,有很多不同的影子,我们今天做的事情就是想用影子来还原这个人,这可能吗?实际上有可能,但实际上现实是很残酷的,在座的如果有做技术背景出身的人,跟我有有一样的体会,要把这个人还原起来很难,因为每一个方向都会有缺失。我们在干一件什么事情,我们在干一件像盲人摸象的事情。我们可能看到的是不同的东西,我有一个观点,我认为今天我们整个信息化已经从信息时代进入了平台时代。
这里面有些特征,我觉得最主要的特征对我们产业来说,为什么今天要讲共享经济,因为以前我们太习惯了解决供需不平衡,我们多种层级的缓冲来解决这样的问题。在系统中间,如果有一千人的组织,我们弄出十个等级,不同层次的领导每个层次解决不同层次的问题,我们太习惯于用系统层次的方式解决问题,用这种方式好处是组织效率高,但是缺点也很明显,缺点是什么呢?当我们以前解决问题是小N的时候,就它可能是一百、一千、一万这样的方式是有效的,但这个方式上升到千万甚至亿级的时候,你会发现这个系统会非常庞大,它的效率损耗会非常大。简单说就是一个人干一个工作要十天,十个人干一个工作一年未必能够完成;甚至一千个人一年都干不完,就是这样一个问题。而,平台它处理问题从效率讲它是分布式的,从业务角度讲,它不再以流水线方式解决问题,而是用单元化和组合式的方式来解决,自我选择自我淘汰的方式来解决问题,这是我对现代信息化的理解。
以前,我们讲信息系统要的是数据库支持,而现在信息平台要的是大数据支持。关于我刚才提的“盲人摸象”的问题,我举个小例子,我们以前看财务报表,一家企业的财务报表,一般老板只会看到公司的余额是多少,但是会忽略了很多细节,比如说我们不知道哪个项目是赚钱或亏钱,比如说今年我们造了十台不同的机器,有了上千万的销售额,但你不知道哪个效益高哪一个效益差,我们把很多数据淹没在平均值里面。因此,也导致很多数据被消耗在有损失的平均值里。因为我们以前遵循的是“二八定律”,我们不仅在客户服务上遵循了商业的“二八定律”,我们在 数据分析 时同样也用了“二八定律”,什么意思呢?抽样采集,然后抽样管理。但是,如果我们换一个角度,关注细节和结构,结论就变了。而大数据的价值不在于大,在于细节和异常事件的发生,这是我这两年在航运数据分析中得到的结论。未来我给出的一个模型是“需求导向,数据驱动”,什么意思呢?我们的行业之所以会有交易,会有电商平台产生,是因为需求存在,有需求就会产生交易。交易就会产生货品和服务的交换以外,同时也会伴随资金和信息流的产生。有了信息我们把它做分析以后,支持运营就可以得到数据中间的价值,然后我们可以改进我们的产品,来刺激新的需求的产生,这样就会产生一个良性循环。
过去我们也提供数据服务,我所在的上海国际航运中心在五年前,我们启动了一个项目,做了一个海运数据库,这个数据库现在有超过260万条航运统计数据,大概400多种指标,整理这个数据十分辛苦。我们整理这个指标通过了很多种方式,甚至是最原始的人工方式、数据自动爬去的方式,各种方式都用了,但是很遗憾的是这些指标它们都不是第一手的指标,他们都是通过统计加工后得到的,而这些经过加工的数据很难再还原到原始数据。这些数据它的价值是信息密度高,但是它的用途却非常窄。如果我能得到原始的数据,那么它们的用途就会大大拓宽。
我觉得今天我们已经进入了一个大数据的时代,这是我刚才说的从小n到大n的故事。我在这里举个例子来说明平台的力量到底有多大。像沃尔玛超市是全球500强企业它常年保持在前三位,它一年的营销额是5000亿美元,但用了220万人完成这件事情;阿里几乎现在可以达到跟它相当的营业额,但是阿里只用了3万员工完成了这件事情;但是很多人说这不对,阿里平台上有很多小微企业在平台上给他做这个工作,但是请大家注意,即便是我们把这些中小微商户加起来,他们也绝对到不了220万。因为很简单,在这中间有贡献的人,那些不产生价值的人在。产生价值的人在这里分享利益,不产生价值的人不分享利益。那么京东商城的营业额是它们的十分之一(50万),它也只用了9万人来完成。
那么,大数据从哪儿来?是不是我们 企业 以前的数据表格扫描一下就是大数据了呢?显然不是。其实大家知道,包括货车司机你让他去输入数据的话,他肯定从简单的表格来,其实有很多数据是不规范的,数据的清洗,很多的“脏数据”本身对数据分析就是一种干扰。未来的数据获取,最可靠的是两个方向:一个是物联网;另外一个是电子商务以及相关的人机交互。电子商务非常有前景的地方在于它可能既是大数据的来源,可能也是将来消耗产生大数据产生价值最好的载体,因为它可能是未来很多产业电商化成功之后,它可能是所有产业的入口。如果产生这样的价值的时候,大数据会在上面运转起来。
我们为了分析港航的大数据,我的团队研发了很多装置去收集这个数据,从最终人和动物到货,到船,到车辆,到机械我们都做了这方面的研究。
那么,航运数据到底都有哪些呢?我大概把它分成六类,这六类还是有点规律的,左边数据是地理数据、检测数据,这些数据很都是有分图层的,有座标位置的或者带有矢量信息的,这些信息让人去看,很难看懂。什么意思呢?比如说雪龙号,它的经度北纬35度,你知道它在哪里吗?这样的数据它是一种表格的,它不是很好的结构化数据。我们说的结构化不是说它有没有结构的问题,而是说这种结构你方不方便理解。
右边两列的数据,地理数据和检测数据对计算机来说它容易理解,但是对来说难以理解,特别是它很难和商业业务挂钩。我们大多数人在常中间的这两个数据,统计数据和业务数据。那么,左边的数据能不能转化成为中间的这种数据呢?是可以的,这中间就需要我们用技术方法来实现。我们把一个我们看上去跟业务不相关的数据转化为跟业务相关的数据,这样的过程就是数据结构化的过程。而右边的文本数据,刚才我们有些演讲嘉宾也说了,它能分析法院的判决书;蔡总前面讲到的征信平台,它就是把很多跟企业有关的信息聚合到了一起。判决书对人来说这个很方便理解,但是对机器来说就不方便理解了,让机器去理解文字中的内容或者图片中的内容,反而不及前面的数据方便。所以我们经常做的工作是把适合人看的变成适合机器看的,或者适合机器看的东西变成适合人看的东西。
我们大数据时代有哪些变化?过去我们怎么处理数据,现在怎么处理数据?产生了新的问题,我在这个表格里面做了一些描述,然后我觉得有这样子的变化之后,我们今天要解决这些问题,就要用用新的工具。
我主要分析主要的信息是这些,一个是全球船舶的静态信息,我会有超过20分数据来源,然后我要对他们进行梳理和整合,才可以得到比较大范围覆盖的数据。另外一个就是船舶的动态信息,也就是我们现在说的ARS,将来可能还会有北斗定位信息。第三个是我们现在在全球范围内,进行码头、港口、船坞的精确标的,包括排放水域,包括排放控制区的标的,就是我们要在地图上面把这些关联信息找到,所以我的团队做的事情是研究时空序列数据分析。这个时空序列数据既可以指船,也可以是人,也可以是车辆,对于这类数据我是格外感兴趣。因为我觉得国际物流它本身就是一个移动的存在,我们把它串联起来就可以从全局上进行分析。
当问题N达到TB、PB级的时候,我们的传统数据库已经负担不了,所以我们会用一些新的技术来解决这个问题呢。在我们的分析架构里面,把问题解决分为四个层次,一个是底层是云计算,这个层次我们解决资源管理和信息化的问题;
分布式存储层我们用适合解决相应问题的Nosql技术以及Hadoop的HDFS技术等。最上面是应用层,应用层的解决问题,我们同时采用Scala,R语言来构建这样的分析环境,这是我们整个 大数据 分析的架构图。我们有一个港航大数据实验室在做这方面的数据分析,在过去的几年里面,我们实际上做了数据存储,加工,分析和整理方面的工作。
刚才我提到的很多数据中间,我们数据量最大的是AIS船舶数据分布,大概覆盖了4年共350亿条船舶轨迹的数据量,这个数据其实很难分析。因为大家知道船在航运时,我们用卫星天线采集信息的时候,采样率是不固定的,还有因为无线电信号会有容量的问题,所以还会有盲区的产生,所以分析这个数据,它的数据分析在前期要做很多铺垫的工作要做。另外我觉得很重要的一点就是,其实我们分析不了容积量,很多时候,通过原始数据转化为我们需要的业务相关表结构,再通过计算机进行可视化的处理,最后形成可视化数据。我们通过这样的方式我们做了一些实践,现在与大家分享一下。
这是我们对国内内贸航线的分析,这张图中红色的线条是我们的国内船只的行驶轨迹,我们的系统自动进行处理,找到它们靠、离港的时间节点转化成为一个航期的记录,我们相当给船只做了一个航行日志,有了这些日志,我们便可得知每一条班轮航线的实际情况,从而计算出每条航线的真实航程和油耗量,让船公司可以准确的核算成本,也可以告诉货主每条航线的准点率或告诉船东现在船是否处于经济的运行状态。
第二张图是:全球船舶停泊事件的分布点进行计算,我们现在能检测到全球的近40万条船的轨迹数据,所以我们让计算机实时的分析他们在哪些地方发生了停靠,有些特别停靠长的时间,那就更有意思了。前段时间网上有流传说,全部的船都停靠在港口,这个他只是看到了一个时间点,他没有运动轨迹,实际上我们可以知道船在港口停了多久或者这条船在码头修了多久。保险公司理赔时,如它说修了三个月,那么你可以通过这个数据验证一下。
那么,这张图里面是画了一天里面全球船舶停泊事件发生的点,这个图我没有加背景,但是大家依稀能看出整个地球的分布。特别是在我们船队护航的,也就是我们的军舰在索马里护航时,你可以看到没有船在那里停泊。这个使我们可以很直观的看到。所以可视化本身就是一种分析手段。
我们把它放大,看局部,我们发现这些事件的发生点,我们很快可以找到码头的位置,锚地位置并进行分类。那么我们怎么知道这是什么码头呢?找到码头,我们还要对船舶进行分析。
我们会把一些来往于相同港口的船的轨迹抽取出来,就可以得到经常来往于某两个港口的船的习惯于什么样的航线、在哪些地方作为它们的转向点以及船长的经验是什么等特点。未来,我们可能根据这些数据分析可以让船实现自动驾驶。那么,我们怎么把它跟经济挂钩呢?我们分析每条船在每个港口的停泊时间、停泊次数、这条船的TEU多少、运力如何等信息,之后我们再通过与港口吞吐量做对比,就可以分析出其中的经济问题及码头效率问题。例如,我们可以帮助港口做横向对比,这可以发现每个小时上海港可以装卸150 TEU左右的货,而这件事情如果发生在广州港,可能它只能完成120 TEU,这样我们就可以说明上海港比广州港的效率高一些。这样我们就可以帮助港口做好横向对比。应用AIS在第三视角来观察这件事情,对每一个港口来说都是相对客观的。
又如,目前大家都很关注今年4月份国家开始对环渤海、长三角、珠三角的气体排放控制区(ECA)的实施。我们通过大数据的分析,可以看到新加坡港和上海港的对比,我们可以通过船型、发动机功率等参数推算出船舶的排放量,进而得到排放浓度的空间分布。在不进行实际测试的情况下,我们可以定量化分析若换了含硫量更低的油,是否能达到减排的目的,能达到什么程度,造成多大的经济损失,政府的补贴和扶持要多大的力度等问题。
另外,对全球港口的标定我们也正在进行中,我们首先讲完成对对亚洲港口的标定,在这张图的左边是我们对亚洲内航线,因为很多国外的公司跟我讲,他们对亚洲的航线最摸不透,因为他们对亚洲很多港口之间商船互相往来的情况都不了解,所以我们就对集装箱船在这些港口的航行路径进行了分析,得出了这张图。我们从中任意找出了一个港口,能够分析出它到其他亚洲港口之间有哪些直接来往的集装箱船,运力多少。以上海港为例,我们可以分析三个月中,停泊上海港的主流船型,可以帮助船公司得知多少TEU的船适合哪些港口或航线。另外,还能对船舶进港后的服务进行评价。比方说我们进港之后船舶多久才可以享受到它的服务。基于这些分析,我们看到船进港以后作业时间是30%,剩下的是等待时间。
最后我给大家介绍一下,在整个案例研究过程中,我们也形成了自己的技术体系,我们称之为Wismap Data Hub,它分为四大块:就是数据挖掘工具、流式计算引擎、PL/SQL批处理交互式引擎、时空数据计算、图计算以及非结构给搜索。
我们的技术经验可以应用在港口、航运、物流企业的大数据实施之中。
这是我们对未来企业信息化可能扩展的一个畅想,在未来企业信息化这一块的数据库怎么构件,你如何搭建信息平台,这是一系列系统的问题。我们也在不断丰富给其他运输企业提供合作方案的经验。未来智慧航运的场景,我这里做了畅想,将是实现感知、智能、生态的智慧型码头;实现智慧的船舶运营管理;实现智慧化的航运中心。现在港行电商和陆运电商平台都发展起来了,我们相信我们在这个过程中积累的方法,同样能够应用到公路、铁路、航空等运输方面。我们在构建我们技术的体系之初,就志在整合一切多式联运相关的数据采集、存储、分析、可视化体系。希望在座的物流企业家可以和我们探讨和进行合作,谢谢大家!
责任编辑:王培