图森互联,如何用深度学习商业化自动驾驶? | 创见
“传统方法和深度学习分别用来处理复杂道路场景感知,两者间隔着一个年代的差距,我们相信两三年后传统算法会没落”,陈默接受采访时抛观点开门见山。用深度学习做视觉ADAS和自动驾驶,图森互联想要挑战以Mobileye为代表的传统计算机视觉,而且事实上后者也顺应趋势、低调地开启了深度学习算法的研发。
上月中旬,图森互联对外公布,自行研发的深度学习算法在KITTI和Cityscapes两个自动驾驶数据集进行了评测。在KITTI目标检测三个单项、目标追踪两个单项、道路分割四个单项,分别获得了第一名;在Cityscapes两套标准下均获第一名。CEO陈默认为对一家创业公司而言,这一切意义重大。在北京的办公室,他和我们详细聊了聊公司的业务规划和技术进展。
寻找一个领域,深度学习不可替代
一支来自硅谷的深度学习算法团队,在国内寻找产品化方法。在广告营销行业试水后,业务面临着重新规划。出任CEO的陈默想要寻找一个领域,在那里深度学习技术必须是核心,而且不可替代,于是图森互联邂逅了自动驾驶。
和趁势进入风口的人不大一样,陈默聊业务规划像剥洋葱——逐项论证,露出市场需求的内核,然后去匹配公司资源。
这是一个C端意识尚待培育的新兴市场。他将国内不同群体对ADAS和自动驾驶的需求排序,发现最迫切的不是购车的消费者,而是更关注道路安全监督及保护的交通监管部门和运营车辆企业旗下车辆的安全保障。并且后者为ADAS付费的意愿更加强烈。
在细分市场时,陈默认为城际物流运输自动驾驶解决方案是一个恰到好处的切入点。自动驾驶会率先在商用车中普及开来,城际物流的运输环境多数是高速路,相对封闭简单。而且物流司机工资是成本大头,用一项技术帮助降低成本,企业也愿意为好产品买单。
将团队掌握的深度学习技术去匹配市场需求时,恰好可以建立壁垒。陈默觉得大型运营车辆ADAS产品最需要的功能不是前车防碰撞,而是行人、自行车、非刚性物体的侧向防撞。对这些目标物的检测、追踪,恰恰是目前视觉ADAS的难点,深度学习正好是简化问题的工具。
单从物体检测来说,传统计算机视觉需要人工设定车灯、车牌、后保险杠、轮胎等特征,然后交给计算机判断是不是车,对行人这样姿态变化多样的目标来说,在特征选取上难度更大。而深度学习的好处是,只要你给了足够多标注了各种“行人”的图片,计算机就能模拟人类自动学习,知道什么样的特征组合起来就是个人,免去了人工设计特征的步骤。
陈默圈定了“深度学习打底、面向城际物流运输车”的大范围,2015年9月北京图森互联科技有限责任公司正式成立。
从算法榜单到产品化
靠谱ADAS和自动驾驶产品的前提,是一套好算法。
为了佐证算法能力,图森互联公布了自己在KITTI和Cityscapes评测数据集的榜单排名,分别进行了KITTI的目标(机动车、非机动车、行人等)检测、目标跟踪、路面分割等计算机视觉技术在车载环境下的算法性能评测,以及Cityscapes在场景的分割方面的算法评估。
以KITTI中目标检测项目为例。根据图像中目标的遮挡情况,分为困难(很难分辨)、中等(部分遮挡)和简单(几乎无遮挡)三个等级的库。在硬件平台相同的情况下,图森互联的机动车、非机动车、行人识别率排名位列第一。
不少业内人士认为,KITTI中检测目标相对多样,因此具有一定挑战性。拔尖的识别率排名可以在一定程度上说明算法能力。对于汽车环境实时响应的需要,检测时间是一个值得关注的指标。陈默也在采访中提到,如果要在车上满足实时性,必须保证每秒至少15帧的处理速度。
在图森互联KITTI算法表现中,检测出一张图片中目标物体的平均响应时间是1.6s,显然对车用来说时间有一些长。对此图森互联首席科学家王乃岩向我们解释,在评测数据集测试,会延长时间去抵达算法表现的上限。在后续的产品化过程中,要去不断简化算法、满足车载环境下的运算速度需求。
王乃岩告诉我们,用于自动驾驶目标检测的算法目前正在车载PC平台上验证优化,工程师已经在满足车用识别率的基础上,将处理速度优化到了每秒15帧,并且会进一步提速10倍用于嵌入式平台的ADAS产品使用。
另外需要关注的是,市场上仍然缺少一块价廉物美的深度学习芯片,可以被用于自动驾驶视觉模块的产品化。在KITTI中目标检测算法的运行环境是GPU@2.5Ghz的PC环境,移植到车载芯片也会不同程度影响算法表现。目前市场上深度学习芯片大都采用英伟达和FPGA。前者成本高昂,后者将C++算法移植到芯片端难度不小。并且,满足要求的算法移植到芯片上后,从Demo到最终产品进入市场,仍要两年时间。未来图森互联倾向用英伟达TX1或多块TK1搭建的嵌入式平台实现算法,最后方案还正在进一步确定中。
因此图森互联所处的阶段,就是面向产品化,平衡速度、性能与成本这三项指标。
下个阶段,陈默想参照车规标准进一步测试。虽然国内针对ADAS和自动驾驶的测试标准还未正式出台,但是美规和欧规标准已经确立。图森互联会把这些标准跑一遍,让大家觉得这家公司“还是很严谨科学的在做这件事情”。
让自动驾驶技术商业化
陈默觉得一个成功创业者必须具备两点才能:第一,解决问题的能力,第二,快速学习的能力。商科背景的他从0开始调研学习自动驾驶,为公司发展规划了两条商业化路线:
一条是以双目视觉,毫米波为主,做L4级别封闭道路的城际物流车自动驾驶,图森互联参与的部分包括但不限于感知,决策与执行也会涉及,瞄准前装;另外一条线面向商业运营车辆,为B端提供后装ADAS产品。
对于L4级别的城际物流车自动驾驶商业线,图森互联把产品定位于中高端,并且希望不以售卖硬件产品盈利,而是按照服务每月收取月费。根据陈默的规划,图森互联会负责包括传感器方案配置、数据融合,决策分析、控制流程在内的整套方案。
图森互联搭建的自动驾驶的平台,硬件部分有五个摄像头,一个前向双目,左右车角和左A柱(检测侧面盲区)各一个单目,以及一个对内单目(驾驶员疲劳检测),软件算法正在乘用车车载PC端测试
目前图森互联与一家物流公司达成合作意向。将基于视觉以及毫米波雷达、点到点高精度地图的技术路线,在封闭路段实现L4级别的自动驾驶,同时还会配备适用长途行驶的驾驶员状态检测功能。“客户向我们提需求,我们向商用车厂提定制化方案,然后一起把车卖给客户。”陈默认为这“很互联网思维”。
因此根据车规级产品化的流程,对图森互联来说的当务之急,是快速搜罗足够强足够有经验的技术人才来打磨技术,并且要兼顾软硬件和汽车背景。
陈默在接受采访时也尤其提到了这点。“目前深度学习领域,能在经典算法基础上重构算法的科学家以及工程师,全世界一共就两千个人。”而这其中,大部分人才聚集在硅谷,这也是图森互联在美国建立实验室、并且长期进行人才招聘的原因。同时为了满足车辆分析决策和控制的需要,公司还邀请了毕业于早稻田大学车辆工程专业的吴楠加入公司,来帮助扩充汽车方面的技术和人才积累。
目前图森互联在美国约有20人,国内大概50人。 技术人员的工资是公司最大的成本支出。这也是公司在A轮新浪投资五千万人民币之后,计划在今年Q4启动B轮融资的主要原因。
打磨算法、招揽人才、面向一个足够有机会的市场,所有问题陈默都在一一用自己的方式解决。他把公司扮演的角色和百度类比,区别在于自己不会采用昂贵的激光雷达传感器,而是选择低成本摄像头和毫米波雷达 ,“这让我们离产品化更近”。对于公司的未来,陈默充满信心。
原文链接: http://www.cheyun.com/content/13041
本文为车云网原创文章,欢迎关注cheyun.com,微信添加“cheyunwang”或“车云”订阅公共帐号。
投稿!合作!提问!每日早报!活动直播!结交大咖!只需扫描下方二维码,即可添加车云个人微信号“车云菌”为好友,更多精彩内容不容错过。