除了单口相声,机器人还得能“阅面”识人
今年8月,雷锋网将在深圳举办一场盛况空前,且有全球影响力的 人工智能与机器人创新大会 。届时雷锋网 (搜索“雷锋网”公众号关注) 将发布“人工智能&机器人Top25创新企业榜”榜单。目前,我们正在拜访人工智能、机器人领域的相关公司,从中筛选最终入选榜单的公司名单。如果你也想加入我们的榜单之中,请联系:2020@leiphone.com。
赵京雷,阅面科技CEO,上海交通大学人工智能博士,前阿里巴巴北京算法研究中心负责人,高级算法专家;前WiseNut研发中心算法负责人,专注人工智能领域算法研究超过15年。
去年7月,赵京雷觉得时机差不多了,便拉着丁小羽,宋向明和陈婧四人成立了上海阅面科技,这四个创始人之前是相识超过了两年的朋友。
公司英文名叫“ReadSense”,中文名也简单“阅面”,典型的技术人员取名风格,简单明了,一眼就懂。但从名字就能看出这家公司十有八九是做 人脸识别 的,虽然如此,但赵京雷更愿意按自己的话来介绍阅面,“一家人工智能科技公司,通过深度学习和计算机视觉技术,让智能机器以崭新的视角看世界”。
对于智能机器定义,每个人都会有自己的标准,手机是个智能机器这是大家都认同的,但VR头盔是吗?在赵京雷眼里,新一代的机器人,像家庭陪伴机器人,扫地机器人,包括一些能与智能电子设备相关联的东西,能跟人的生活空间紧密的东西,都可以定义为消费级别的智能机器,这里面就还包括像AR与VR。他所指的当然是一体机,单个的盒子我想也没有讨论的必要了。
那为什么要让机器拥有崭新的视角?目前机器人行业面临的最大瓶颈就在于人机交互。语音是现在大部分认为最好的一种交互方式之一,也是行业中采用最多的交互方式。语音讲究的是听说读写,相声靠的是说学逗唱,现在很多做语音交互的公司很厉害,采用他们方案的机器人,个个都能说的一口好相声。但是黑眼说唱的单口相声能活多久呢?机器人视觉则能为更多的交互方式提供基础,人脸识别,手势识别,行为(体态)识别,环境识别。与语音比较起来,视觉还具有更深层次的意义,视觉让机器人能从被动的接受信息,到主动地去观察周边的环境、主动观察和它接触的人与他的动作,然后做出一些更具有个性化的反应,这也是机器人智能的一个基础。
有了视觉,智能机器才能对人有更好的理解,它可以能够通过识别你的脸来找到你并通过对环境的识别来定位你的位置,通过你脸上的表情来读懂你的情绪,识别出你的手势或者行为指令,更加高效的,有目的性的跟你进行交流。
赵京雷说在视觉算法中,主要使用到一项技术就是深度学习技术,而深度学习现在却面临着另一个问题:低效。通过云端处理数据的解决方案不能保证任何时候机器都能快速,高精地处理数据,尤其是在网络情况复杂的环境中。于是,他找来了前美国卡内基梅隆大学机器人研究所研究员,东南大学计算机视觉博士丁小羽一起优化视觉算法;前百度高级工程师宋向明来做架构,不仅解决了精度和效率问题,同时还通过大量的前端化工作,让阅面的产品离线时也能比API云服务产品可靠,人脸识别和表情识别等深度模型压缩到非常小,在嵌入式的低端arm系统上也能够非常实时的,不依赖于GPU来工作。
就当我们可以给阅面科技这家做
图像识别
的软件公司下定论之时,竟发现,他们已经开始做硬件了。产品名字叫RoboEye(技术员取名思维),看一眼就能猜到是什么产品:摄像头。
视觉是一个复杂的系统,想要获取到更多的环境信息时就可能需要更好的传感设备。为什么会去做硬件,对次赵京雷给出的解释是,自己去做硬件的话,能知道什么样的设备能提供给我们更多的信息(深度信息),更快的计算能力与更小的能耗。另一方面,在人脸检测里面,有很多待机的功能,就以检测为例,就要求机器能时刻检测在场景里面有没有出现人脸,有没有出现手势,有没有出现人体框,甚至还有检测周边的环境有没有发生变化。降低功耗与进一步增强计算的效率就可以通过摄像头的硬件配置与自己的软件部分紧密结合,一体化操作才能实现最优解决。比如通过双目摄像头,能够增加对距离的感知,更好的进行路径规划和导航。
阅面的产品目前分为两大块,一个是算法层的,一个是硬件层的。算法层的可以完全基于软件层出发,它只需要集成。如果只需要软件层的产品的话,比如你的相声机器人现在需要一个人脸识别或者手势识别,那么只集成SDK就可以了。而硬件层主要针对的是需要深入建模,对计算等方面有非常高的性能要求的情况下,阅面给出的一个优化好的方案。
“ROKID, 公子小白等主要使用的也就是相关的视觉算法SDK产品,包括ReadFace, ReadHand等产品。”
计算机视觉和深度学习这块需要有人才的积累以及海量的数据叠加,人工智能算法又是一个需要长时间的优化过程,所以在市场上阅面面对的对手都还很强大,没有自己的优势则可能分分钟被秒杀下去。
赵京雷说,嵌入式深度学习模型与深度学习模型压缩和加速技术是他们现在最大的技术优势,另外在表情识别、手势识别和行为识别方面具有一定的优势,而高效的FPGA加速技术则手中的利刃。
胜,不骄;败,不馁。阅,不尽;面,俱到。
赵京雷就想成为视觉识别行业的科大讯飞,让智能机器人除了会说单口相声外,还能看到这个世界。