中国工程院院士高文:数字视网膜消除智能交通的痛点
雷锋网消息,11 月 19 日上午,2019 世界人工智能融合发展大会于山东济南正式召开。大会由工业和信息化部、中国工程院、山东省人民政府指导,由山东省工业和信息化厅、省教育厅、省科技厅、省财政厅、济南市人民政府和新一代人工智能产业技术创新战略联盟共同主办。
在这场大会上,中国工程院院士、新一代人工智能产业技术创新战略联盟理事长高文;中国工程院院士、浪潮集团首席科学家王恩东;英国皇家工程院院士、鲲云科技首席科学家陆永青;富士康工业互联网董事长李军旗等嘉宾出席,并作了主题报告。
高文本次报告的主题为《智能交通与数字视网膜》,以下是雷锋网 (公众号:雷锋网) 在不改变原意基础上的整理与编辑:
各位专家、各位同行,各位朋友,大家好!
智能交通之所以被称为“智能”,是因为它可以通过一些技术手段来提高效率;比如,它可以知道哪条路上车多,哪条路上车少。虽然,以前的信号控制系统也做了很多类似工作,但那些系统大部分是通过地面的线圈,或是通过摄像头采集到的信息来进行输入。
今天我要和大家分享的,就是将最现代化的传感器和计算系统合在一起,去把智能交通这件事做好。
首先,我们来了解一下什么叫数字视网膜。实际上,数字视网膜本现在已经形成了大规模的系统,这个系统要如何把视频“看到”的东西很好地协调起来,需要解决三个问题,一个是为什么,一个是怎么做,一个是具体的概念是什么。
从整体来讲,无论是数字视网膜,还是图像处理或视频处理,都经过了漫长的演化路径。举个例子,视频处理技术刚出现的时候,模拟的是照相机,那时大概是在 19 世纪中前期;后来,从伦敦开始,人们慢慢将这些图像以及其传达的内容利用起来;一直到 19 世纪中叶计算机以后,人们开始把模拟图像变成数字图像,进行处理和传输;到了今天,图像处理从卫星图像到医学图像等领域不断发展,甚至覆盖了我们生活的各个方面。
以前人们在这一方面的处理能力不强,但现在,摄像头和传感器的发展越来越好,云计算也出现了。以前的摄像头现在成了摄像机网络,由几千个几万个摄像头联系在一起;原先简单的云存储也变成了现在复杂的城市大脑,一个城市有一个总存储中心和若干个分存储中心。智能交通的决策分析都在总中心进行,而数据则从最末端的每个摄像头传输到分存储中心,再汇总到总中心。
那么,这些数据具体是怎么过来的?以前的模式就是,摄像头把拍到的内容用编码器压缩后传送回来,到了总中心再解压,通过基于手工的系统来提取有用信息,并分析识别。随着人工智能技术越来越成熟,上述手工完成的工作都交给了深度神经网络来做,只要有足够的算力就够了。
但是,这样一个系统,真的能提高效率吗?如果效率不行,又是因为什么原因呢?刚刚说过,摄像头拍到画面后要进行压缩,然后传到总中心解码,再进行特征提取、分析、识别;实际上,这个过程需要一定的时间,很难达到实时的效果。为了解决这个问题,人们不停地升级系统,还加了许多特殊的智能摄像头来直接识别一些特征,不再经过编码的过程,由此来节约时间。
这种解决方案真的好吗?其实不然。因为,这样做确实可以解决一些小问题,但是它带来了更多的大问题。现在的摄像机网络规模很大,所以它收集的数据也非常大,然而,数据大不等于大数据。这些摄像头拍下来的东西,85%—90% 都是监控视频的数据,很难对整个城市的管理和规划改进有帮助;而且,它们存储的时间最长也只有三个月,可能在两个星期的时候就被覆盖了或是废弃了。
这样的超大数据量仅有一个超低的价值密度,我们应该想办法去转换,让它变得更有价值。问题其实出在架构上。按照原来的架构,几乎 99% 的摄像头只是用来拍摄,然后将内容编码,即便它们传输的数据之后发挥了作用,摄像头的贡献也是极小的。所以,我们要想办法让摄像头干更多的活儿,但又不是将其升级为简单的智能摄像头来识别人脸或车牌(原因上文已解释)。
真正有用的方法是,让摄像头将有用的数据抽取出来,传送到云,然后作为一个富有价值的大数据在云里处理并长期保存。这是从生物界受到的启发。
无论人还是动物,我们都有眼睛,并且效率非常高。眼睛获取光学信号是通过视网膜来获取,视网膜里有两种比较关键的细胞,感光细胞和锥状细胞,这两种细胞加起来有 1.26 亿,而我们平时看到的东西,都是通过这些细胞来传到大脑的。不过,在信息往后传的时候,经过了若干层,每传一层信息都会进行缩减,一直传到脑神经的连接地方。
举两个例子,一个正常的孩子在学习的过程,实际是把神经的全连接网络进行了增强和剪裁,有些连接变得越来越粗,有些连接慢慢就萎缩掉,最后他能有效率地辨别事物。相反,一个患有自闭症的孩子末端神经和脑端神经一样粗,而是没有进行过裁剪的全连接,他的注意力很难集中。
这也就说明了信息缩减的重要性,但目前我们的摄像头没有信息缩减这个功能,相当于一个“自闭系统”。所以,我们的系统要像人的视觉系统一样,把信息缩减了再往上送。
为了做这件事,去年我和一个北大的同志,还有一个阿里巴巴的同志,三个人一起在《中国科学》上发了一篇文章名为《数字视网膜智慧城市系统演进的关键环节》的文章。
如果用了所谓的数字视网膜,这件事就可以解决了,数字视网膜有八个最主要的特性,我汇总了三个最本质的特征:
-
第一个特征叫做全局统一的时空 ID,每个摄像头要有一个全局统一的时空的 ID,地理位置是全局统一;每个摄像头只要是送信息回来,马上就知道这是全局统一几点几分的时间发生的事,发生的物理地点是在哪里。
-
第二个特征就是视网膜本身要有高效视频编码的能力,高效特征编码的能力和联合优化的能力。高效视频编码方面现在有很多标准,像 AVS 标准,MPEG4 等等;特征编码现在的标准有 MPEG,CDVS 标准,CDVA 标准;如果在一个码流里,同时要监控视频编码和特征编码的话,要想办法让它们可以联合优化。
-
第三个本质特征就是模型可更新,注意可调节,软件可定义,这也是三个不同的要求。我们现在都是用神经网络模型,随着时间推移可能会有新的算法出来,所以,数字视网膜要是模型可更新的;换句话说,每个摄像头上的算法都是可以升级的。注意可调节,主要是可以后台控制它。同一个画面里的东西,优先级在每个地方都是不一样的,我们可以赋予它一个感兴趣区域的功能,让它有注意一些特别重要的区域,并保留这个区域的信息。软件可定义,可以通过软件升级来实现软件可定义。
这种新的数字视网膜实际有三个流,不像传统的摄像头就是一个流,即一个视频压缩流或一个识别结果流。数字视网膜的三个流包括视频编码流,特征编码流,模型编码流。当然这三个流是有分工的,有的是在前端可以实时控制调节,有的是通过云端反馈出来进行调节和控制的。这就是数字视网膜。实际上,数字视网膜主要是通过脑眼合一的方式,将未来终端的信息,通过数字视网膜的处理,送到云端的。
现在,我们在深圳专门做数字交通,为了做这个事而进行大规模的训练。其中,有一些开源的东西,包括建立开源生态,还有一些势能的技术,里面视频编码标准是一块重要的势能技术。现在,联盟也在做一些基于刚才说的标准装的大的应用标准,这些都在按部就班往前推进。
第一款数字视网膜芯片已经在路上,很快就会发布,这个芯片很小,就像一块钱硬币一样,但却把我刚才说的三个本质特征,八个功能全都包含在里面。将来,这种芯片可能会直接进入各种智能交通的系统里,会支撑数字视网膜的应用。
雷锋网年度评选—— 寻找19大行业的最佳AI落地实践
创立于2017年的「AI最佳掘金案例年度榜单」,是业内首个人工智能商业案例评选活动。雷锋网从商用维度出发,寻找人工智能在各个行业的最佳落地实践。
第三届评选已正式启动,关注微信公众号“雷锋网”,回复关键词“榜单”参与报名。详情可咨询微信号:xqxq_xq
。