眼擎科技创始人兼CEO朱继志:前后端的图像识别就像买家秀与卖家秀

亿欧网  •  扫码分享
我是创始人李岩:很抱歉!给自己产品做个广告,点击进来看看。  
眼擎科技创始人兼CEO朱继志:前后端的图像识别就像买家秀与卖家秀

2018年4月20日,由亿欧汽车主办的“预见·科技出行——GIIS 2018 智能网联汽车 产业创新 峰会”在北京千禧大酒店举行。来自传统车企、造车新势力、汽车供应商、科技公司、 自动驾驶 企业、动力电池企业以及智能出行平台等近30位嘉宾,围绕产业政策、产品变革趋势、车企战略、品牌塑造、供应链创新、投融资新风向等话题,共同探索了汽车产业的发展方向。

其中,眼擎科技创始人兼CEO朱继志发表了以“成像引擎芯片:突破自动驾驶120dB的瓶颈”为主题的演讲,他认为:

1、对于自动驾驶来讲,摄像头就是一个测量设备,你要做的事情就是要去把各种各样物体本身的颜色能够精准的还原出来。

2、芯片技术在汽车行业中主要做增值服务,到电动车时代,变成了关键的替代。

3、高端产品间的竞争一定要靠原创和产业链,不能通过进口的方式实现。


以下为演讲实录(有删减):

我们讲到汽车的感知能力的时候,视觉是最重要的一环。在AI整个领域里面,包括做后面很多AI深度学习的,绝大部分都是跟视觉相关的,视觉又分两部分,图像识别以及成像,图像识别很多公司说我们的识别准确率到97%、98%甚至99%,但是这都有一个前提,就是投像是正常的,投像的前端和后端的识别有一个前后端的关系,就跟买家跟卖家一样的。

这就有点像淘宝卖家秀跟买家秀一样的,我们看到的是卖家秀的照片,经常在现场得到的是买家秀。这个确实在投像领域第一天发生,在语音里面,在过去的十几年里面也在发生这样的事情,后面的识别率非常高,但是到今天为止我们还没有看到在我们正常餐厅里面能够使用的语音识别,感知端在整个视觉领域非常重要。

为了解决这个问题, 激光雷达 发展出来了, 特斯拉 不喜欢用激光雷达,马斯克说激光雷达是一根拐杖,说自动驾驶必须要完美解决全天候的被动光学投像识别问题,被动光学就指的是不主动去发任何能量的东西,因为它有很多副作用。我认为大的方向来看,纯视觉能力和激光雷达比有几个大的区别。

第一个 成本非常高 ,因为视觉的芯片是一个集成电路,它的成本随着量是可以无限降低的,而激光雷达涉及到光源,机械各种各样的部分安装特别复杂。而且激光雷达产业链是相对封闭的产业链,而视觉是开放的,全世界无穷多的公司都在做整个视觉的分析,激光雷达做分析本身就是做激光雷达自己的。因为 自动驾驶以后最主要的还是要靠这种被动光学的投像识别,最终可能是一个综合系统。

眼擎科技做全天候的被动光学投像成像的,我们不做识别,我们只是做投像的成像。当我们人眼去看各种各样东西的时候,我们摄像头看各种各样东西的时候,在暗光、逆光、反光的时候经常导致投像太差,我们可以把它生成正常的投像,这样在我们后端识别的时候就不会有任何的问题,我们眼擎科技要做一个像人眼一样的,能够适应各种各样环境光线的成像引擎的技术,以及把它做成芯片。

在自动驾驶里面其实关于这个很早就有标准,欧盟在视觉上叫120dB ,在逆光的时候过隧道我们人眼都不太舒服,晚上的时候路灯或红绿灯反差会非常之大,120dB差不多就意味着跟我们人眼的适应能力差不多。120dB在技术上的意思就是说最亮的光线和最暗的光比可以到2的二十次方,这是非常庞大的比值,在实现的时候意味着要用二十位来去表示,来去处理这些光线的数据。

所以画了一个图,从最亮到最暗,要用二十位乘以120dB,在某个环节丢掉了,我可能只能取其中的八位、十二位、十四位,这样大量的信息在亮部或者暗部就被丢掉。这个目前在自动驾驶的视觉领域,前端最主要的问题就是动态范围不够,还不是暗光,因为车本身有灯,在绝大部分的场景都是因为逆光的原因,光比太大,动态范围不够导致的,这是最大的痛点。

但是经常有客户找我们说,我们买的摄像头磨损宣称是120dB,我们拍的照片怎么这么差,到底是不是忽悠我们?其实也不是。在整个链条里面视觉有四个环节。首先是镜头,镜头是从光进来和出去,光出去到了CMOS传感器,电子信号出来,然后是成像的处理,有很多信号是电子信号进来变成投像,我们GPU各种各样的处理最后得出一个结果反馈回来。四个环节里面前面的环节可以到120dB,但是传统的ISP的架构都是八位的,我们有一个二十车道的车,突然变成八车道,其他十二个车道整个往前冲,这是目前所有动态化范围最大的原因。但是也不能够说在忽悠大家,欺骗大家,因为CMOS本身会有120dB,你的图像识别有这个能力,用二十位方式处理这个数据理论上也可以得到这个。但是我很不幸的是我们所有做架构都是来源于准的八位,很难为这个改一个架构,传统的图片最后显示的都是八位的,这个是由于传统ISP架构的问题导致整个的120dB达不到最核心的原因。

我们眼擎科技是这样做了一个新的架构,目标就是要实现端到端的120dB,进来的时候COMS是120dB的,我们出来的时候给到大家的识别软件一定是120dB的,而且这个120dB是八位的方式表征着,也就是说我们不用去修改任何的视觉识别的算法,怎么做呢?这里面有三层的架构,首先要做一个二十位COMS控制器,以及二十位的芯片架构流程,因为底层架构不一样,我们再往上做的时候要做很多全新的算法以及各种各样新的算法。

这些新的算法出来了之后还要不断地去做测试,这三个我们把底层的硬件芯片架构以及各种各样的全新算法再加上这些算法在各种各样场景下的验证数据,加在一起叫做全新的成像引擎的架构。当我们过隧道的时候跟正常的图片一样,暗的地方是清楚的,亮的地方也是清楚的。

成像的历史最早是胶卷时代,八九十年代开始进入日本,日本把整个架构定下来,日本所有的公司迪康、家能、索尼,它们有各种各样的成像技术,不光是刚才说的,在安防、医疗,在更高端的设备全是它们的东西,它们所有的东西价格都是一样的,这个称之为数码ISP相机。所有的摄像头都是沿用了这个架构,包括我们看到国内以前做安防行业的,都是采用这个架构。

现在到了一个AI视觉时代,我们认为跟以前从胶卷到数码时代一样,根本的变化就在于说成像要从以前给人看,变成现在给机器看。在过去的十年里面所有成像技术的发展,不管是日本还是中国的手机厂商都在做修图、美颜、磨皮,各种各样的滤镜,这个对我们人看的话非常有帮助,所以我们看到手机里面的拍照视频大幅度提高,它其实不是成像技术的提高,而是投像处理技术的提高。

但是这些所做的一切,对一个机器来讲是没有任何意义的,我们测试机器不需要去对这个事情进行审美,他需要的是精准的测量设备, 相机对于自动驾驶来讲就是一个测量设备,你要做的事情就是要去把各种各样物体本身的颜色能够精准的还原出来 ,在各种各样不同的情况下都可以还原出来,传给各种各样的大佬,干什么不用关心。所以我们把它当成一个给机器用的测量仪器做这个。

数码相机的架构从历史上来看是没办法解决复杂光线问题的,不是因为功能不做,而是因为这个机构不行。大家有很多人用单反的都有这个体验单反所有的相机两个格式,一个叫弱格式,一个叫直接拍摄的格式,直接拍出来的照片就是巴比特的范围,弱可以有十四位和十六位的,我们做的事情就是相当于把这个架构打乱了,我们直接用这种弱格式直接的输出到我们现有的自动驾驶这个平台里面来,这是一个架构的问题,到今天为止日本IPS还没有改变这个架构。

芯片是一个核心技术 ,这个我们深有体会,我们创业于2014年初,这个是第五年,我们刚开始把产品变成行业应用,还没有到很多客户的阶段。我们刚创业的时候选择了原创高端的视觉芯片,原创就是全世界没有做过这个东西,我们定了3+2+2的结构,三年做技术的开发,两年开始推向市场,两年再去看市场的成熟,现在是我们的第五年,今年是产品落地的一年,我们的出发点要解决一个技术问题而不是先去看这个问题在哪可以用到。

现在所有的相机,不管是工业的还是消费的,还是手机的,都会碰到复杂光线的问题,我们想来解决这个问题,这是我们创业的初衷。测试的方法就是我们认为说这个问题存在几十年了,都没人解决,一定不是简单的说功能不行,而是里面的架构不行,所以我们要做一个新的架构。

我们今天会有一个新的汽车自动驾驶平台发布,叫eyemore DX120 ,它就是实现我们刚才讲的120dB,大家不用改任何的东西,我们有接口符合车规的,在行业里面推广方案。大家不用改任何东西就可以识别,它能够解决大概99%的逆光环境,包括隧道、地库,各种各样的环境,我们5月底会有样本给大家提供测试申请。

讲到芯片,做芯片挺难的,其实比做芯片更难的是怎么卖芯片,尤其当你是原创芯片的时候,做芯片卖模子推方案建生态,这是一个新的芯片必须要走过的历程, 除了自动驾驶以外,我们是一个通用成像技术,我们今年会发布基于安防、机器人、无人零售、医疗、深度相机等各个领域的参考设计方案。

除了这个复杂关系之外,其实我们从基本上来看,我们的成像引擎是最大程度的能够提高图像的信噪比,最后的图片识别率是由信噪比来定的。我们未来除了把自己的眼睛做好以外,很多大佬跟眼睛的交互非常重要,我们会提供更多的适合于识别的API,来帮助大家处理视觉的问题。

我们今天自动驾驶后面有特别多的东西,因为一个搞不定,现在从CPU变成了有GPU,最后成像。这个时间长了以后,合久必分,最终还是分久必合,三年以后各种公司都会推出更加完整的芯片方案。

最后,我想分享一下汽车和芯片产业相互之间的关系,我自己的理解。在自动驾驶之前,自动驾驶和芯片的关系,其实 芯片在IT技术在汽车里面主要做增值服务,到电动车的时候变成了关键的替代 ,自动驾驶实际上会带来整个IT汽车整个产业的变革。

以前的时候我们所有的设计技术都是给人用的,包括我们的芯片,我们要讲人际交互特别的好,在自动驾驶里面人际交互不是一个问题了,因为没有人了。所以给机器用可能首先会做自动驾驶里面得到普及。在过去十年里面所有的芯片在中国的发展主旋律是做消费类产品,我们看到互联网、手机和各种各样家用的产品都是消费类的产品,现在我们看到很多公司在方案的时候,还用很多消费的产品,没有办法,现在大家都知道安全非常重要,所以以后自动驾驶会大大的推动整个芯片行业从消费级往工业级甚至更高规格升级。

最后还有就是提到的完全原创的东西,因为最近芯片刷屏,中兴事件刷屏了,很多人讨论这个问题,我觉得其实核心的技术都是很难买到的。那在自动驾驶也是一样的,所以我们很多的技术公司都会自己去开发一个自动驾驶的视觉解决方案,而不是使用已有的产品, 当高端产品竞争的时候一定要靠原创和产业链,不能通过进口的方式实现

随意打赏

ofo创始人兼ceo戴威创始人兼ceo创始人 ceo机器视觉系统创始ceo
提交建议
微信扫一扫,分享给好友吧。