深推智慧城市建设 旷视Face++如何感知城市“五度”
2017年12月14日,“第五届中国·深圳智慧城市建设高峰论坛”在深圳大中华喜来登酒店正式举办,来自全国各地的政企领袖、行业大咖、权威专家、企业代表、 媒体 精英共计800余人共聚一堂,探讨安防人工智能现状,展望行业前景,探寻合作机会。
会上,北京旷视 科技 有限公司CTO唐文斌作了“城市感知与数据应用”演讲,与大家分享城市感知的“五度”。
北京旷视科技有限公司CTO唐文斌
在唐文斌看来,人工智能本质上是一种解决问题的技术、手段,作为一家人工智能企业,旷视Face++将注意力更多关注在业务本身上。在安防行业,通过密布的公共视频监控我们可以看到整个城市的一举一动,但“看见”并不等于“看懂”,如何真正的去理解、分析视频里的数据并加以应用,才是一个城市的安防真正所需要做到的事情。旷视基于自身在计算机视觉技术上的强大优势,以城市为单位,用智能识别分析技术去感知城市的“五个度”,让人工智能全面深度改善整个城市。
以下为唐文斌演讲摘要:
城市感知的“五个度”
如果我们把城市作为一个单位,我们去感知这个城市,哪些东西是重要的?今天和大家分享的是我们(Face++)在这方面的思考,城市感知到底什么最重要?
我认为这五个度比较重要:维度、精度、密度、关联度、集成度。
1. 维度(即数据的丰富性)
感知的维度决定了数据的丰富性,有多少数据的类型和对象,就决定应用的实用性。
举例来讲,我们从一个视频里最能感知到的东西是人脸,通过人脸识别,我们感知的是你的身份、你的年龄、你的性别、你的民族等信息;通过对行人识别,我们感知的是衣着特征属性、ReID特征、动作、行为、随身物品等;通过车辆识别,对车牌、车型等进行感知。
以上这些都是通过可见光的方式进行感知,同时,我们还可以通过多光谱感知和其它电子信号的方式来获取视频中的数据。
这些都是感知的纬度,我们从视频数据中,城市的物理世界中能获取什么样的数据,数据多少决定应用的丰富性,这是一个重要的点。
2. 感知的精度(决定数据的可用性)
上世纪九十年代,有很多前辈(公司)在人脸识别上做了很多的努力。但为什么那个时候不用,现在才开始用?有一个很核心的点,就是精度大大变化了。
以前的人脸识别技术,报十次警可能有九次是误报,现在报十次警可能只有一次是误报,这是一个本质的飞越。
今天的场内穿西装、穿西裤的人非常多,做行人的匹配,我能不能通过对这个人更细化的特征,比如说西装、领带的颜色,鞋子的情况,是不是有一些其他的配饰,可以精准的感知这些信息?
这是我们最近做的工作,从感知的角度来讲,除了有更多的纬度,每个纬度上我们都要追求更好的精度,精度决定最后的应用效果。
3. 感知的密度(高密度带来广泛的数据应用价值)
密度能带来什么价值?一是弥补精度的不足:精度是需要算法不断提升的,同时还有时空的限制,通过高密度的传感器的布置,可以带来对精度不足的弥补。
例如行人的ReID,我们在某一位置发现了一个人(没有看到他的人脸,我只看到他的行人特征),我不应该是在全程对这个人检索,而是在接下来十分钟里,在100米的范围内的高密度布置的摄像机进行检索。
通过这样视频接力、人机混合交互的方式,它可以帮助我们警方用非常低的代价追踪出这个人的轨迹。
所以说高密度的传感器不仅能解决信息精度的不足,也能带来更多的应用价值。
4. 感知的关联度
我们所有的单个数据能解决一些问题,如果这些数据被关联起来能带来的价值是更大的。
举例来讲,在视频中我们有的时候能看到一个人的身体和人脸,换到另一个摄像头就只能看到身体,事实上我们可以把行人识别和人脸识别关联起来进行分析。
另外还有车辆的ReID,我们在场景A可以拍到车牌,我还知道它是什么车型,长什么样子;换到另一个场景B只能拍到什么车型;紧接着又在场景C,看到一个行人从车辆走了出来,这样的话,车和人、人脸信息关联起来进行追踪。
5. 感知的集成度
当我们需要做高密度、强关联感知的时候,我们会需要非常多的传感器,我们需要在不牺牲效果的情况下(即提供更强了计算能力,更强的计算效果)保证成本的合理化。
以人脸抓拍为例,一些具备反侦查意识的人,看到摄像头会马上低头,好的抓拍机要满足要非常高的抓拍率、足够的抓拍量,同时具有较高的性价比。
为此我们推出了“旷视敏观MegEyeC3S”这款产品,抓拍率高达98%、单画面抓拍量最多105张人脸、同时具有极高的性价比,与顶级竞品对比,性能高两倍以上,成本更低。
总结
城市的感知非常重要的,要有多维度感知、更好的精度、更好的密度,数据之间要有关联度,最后还要有集成度,通过这样的感知方式,我们可以针对这些数据提供一系列的数据应用。
截止目前,旷视智能安防已在全国协助抓获在逃人员4000+人,我们衷心地希望在社会更加安全,为平安城市做更大的贡献,谢谢大家。