的卢深视户磊:大库时代,落地千万级刷脸系统的技术剖析与建库经验
2020年9月5日,由雷锋网 & AI 掘金志主办的第三届中国人工智能安防峰会,在杭州正式召开。
本届峰会以「洗牌结束,格局重构」为主题,会上代表未来新十年的15家企业,为现场1000余位听众和线上几十万观众,分享迎接安防新十年的经营理念与技术应用方法论。
在下午场的演讲环节上,的卢深视CEO户磊为峰会带来了精彩的演讲。
户磊提到,大库时代,金融、交通、应急管理等众多场景亟需千万级精准人脸识别技术方案。目前行业内现有方案为多引擎,多层级,分库管理模式,具有系统复杂、软硬件开销大、成本高、效率低等诸多不足。
理想的大库识别方案应该具备以下几点:千万级别底库,万亿分之一误识别率,鲁棒性好,高度兼容性,以及价格适宜。的卢深视是全国首个实现省级规模三维人像应用的AI公司。
在系统架构方面,分为三个层次,由前端多维智能感知系统、千万大库云端中台和基于大数据的多模态关联分析与预测后台组成。
在技术架构方面,自下而上分为核心算法层、平台技术层、业务中台层和应用层。在算法层,围绕3D视觉技术的深度感知算法族、三维重建算法族和人脸识别算法族至关重要。在业务中台层,如何通过数据接入、数据管理、大库管理和人脸比对算法等各技术模块的不断优化,从而提升应用效率至关重要。
再者,的卢深视建立三维数据标准及评价打分体系,这是后续确保三维应用效果的基础,的卢深视结合实际工程应用经验,提出了数据质量要求及评价标准。
户磊还总结了的卢深视3D识别的优势:
准确率高,错误率低于万亿分之一,满足金融支付标准。
鲁棒性好,基于深度信息能够做到不受光线影响,针对大角度、浓妆、多肤色多人种等识别场景,也能够准确识别。
安全性高,在活体检测方面,能够实现2D平面伪装攻击方式100%防御。
以下是户磊演讲全文,雷锋网作了不改变原意的整理与编辑:
的卢深视CEO户磊
大家好!我是的卢深视的创始人兼CEO户磊,今天非常感谢各位行业的专家和嘉宾老师们来听我分享,也特别感谢主办方雷锋网,今年在疫情背景下,AI安防特别需要一个这样的行业交流机会。
一、大库时代,千万级刷脸系统落地面临的挑战
任何场景的AI落地都需要有需求,千万级精准人脸识别是有其需求的,尤其是今年新冠疫情,给我们国家和城市包括应急管理体系、常住人口信息化管理、大交通等在内的领域都带来了全面的考验。
其实在这之前已经有相应的趋势。自改革开放以来,中国从原来的城乡二元化结构逐步走向全面的城市化,特别是近10年到15年,超级城市不断涌现。
大家应该能感受到,除了北上广深以外,原来所谓的二线城市、准二线城市规模逐步增长,千万级人口的城市不断出现。
千万级人口聚集在一个城市,如何管理?如何服务?这是千万级库才能解决的问题。
同时,疫情也带来一个非常重要的课题,之前的城市管理和城市服务更多地是考虑一些特殊人群,比如公安领域,考虑的是刑侦追逃,刑侦追逃可能是一个几万到几十万的小库。
疫情之后,每个人都可能是病毒的携带者或者潜在传播者,这时,不止特殊人群,我们需要对所有的人进行疫情管控,服务人口的体量一下变成千万级甚至亿级规模。
同时,随着生活基础设施越来越便利,在大交通和大出行体系中,出现了城市千万级人流量在封闭场景中流动的应用。比如地铁是一个封闭系统,一个城市每天载客客流量在1200万到1500万规模,这也属于大库管理体系。
再比如金融支付,对安全性要求很高,同时它的库也很大,支付宝和微信的刷脸金融支付,后台用户数目都是亿级规模。
行业会员领域,尤其是一些连锁店,可能有几十万、百万甚至千万的会员体系,他们也需要对会员进行精准的身份识别和个性化服务。
这些都是千万级甚至亿级大库的场景,且都有急切的需求,但是现有方案无法充分满足需求,主要存在以下几个问题。
-
多引擎
公安和安防领域一般采用多引擎的方式,比如一家厂商算法不够准,就采用多厂商、多算法同时进行,通过多重比对提高识别准确率。
这样带来一些问题,一是系统重复建设,资源损耗比较大,整体系统造价很高;二是不同厂商之间系统缺乏统一标准,兼容性也比较差,整个系统很复杂,维护很困难;三是可能这种方式还不能完全满足需求,还是要通过人工逐级排查实现进一步的精准识别,推动身份的确认。
-
多层级
很多地方会采用区级、市级、省级逐级排查的方式,这样会让不同层级信息无法打通,存在信息孤岛,也使得查询效率低,不具备易用性。
-
分库管理
通过特定标准或标签对库进行拆分,把大库变成小库,然后进行分库管理和识别,从而提高识别准确率。这也会带来一些问题,比如统筹管理难度大,而且对于具备多重身份的人,数据会变得冗余,严重影响用户体验。
总的来说,现有方案会导致系统复杂、软硬件开销大、成本高、效率低。
我们回归到问题本身,理想的大库识别方案应该具备哪些特点?
首先,需要是千万级别底库;准确率要达到千万、万亿分之一的误识别率;鲁棒性要好,快速且安全,有足够的反攻击能力;性能要开放,能够支持多模态数据接入,兼容性要好;要经济实用,方案切实可行且能利旧。
二、标杆案例研读与标准建库方案
的卢深视成立于2015年,是最早一批做三维视觉的AI企业,专注三维视觉智能感知技术,在高精度深度感知成像、三维实时高精度重建、三维跟踪识别及感知等技术方向上,处于国际领先水平。
当时我们就在想,人脸的三维信息经过了精准重建之后能用来干什么?这些图像信息里有丰富的人脸特征,加上形状信息之后,特征会更丰富,也能支撑更大库的识别。
所以我们当时就聚焦3D人脸识别这个方向,也非常荣幸,我们承接了一些国家级项目,在某个标杆省份实现了一个省级3D人脸应用,并且在这个基础之上真正实现了千万级大库的精准识别。
这里介绍的是我们在2015到2016年的一个案例。这是基于的卢深视“哨兵”三维人像多维数据管控通道实现的,通过设备的部署,协助用户实现了全国首个省级规模三维人像应用,后期,我们把它切换成不需要带证件识别的直接刷脸识别安检方式。
这个设备本身具备“一次通行、多维采集、关联碰撞、全面预警”的特性,在实现二维、三维人脸识别的同时还能提供四轨合一的分析,通过集中式管理平台,还可以实现行动轨迹与综合研判分析。
这个案例当时为什么能够做成?大家一般会想,做3D人脸识别首先要建库,但是用户会觉得麻烦,成本就会特别高。如何在用户能接受情况下帮助用户把库建设起来,并且实施好整个系统?
上图是我们当时的一个建设思路,的卢当时采用了 “边建边用、边用边建” 的创新模式。
从2D人脸到3D人脸都是在拍人脸,只不过前端的传感器不同,相机从2D相机换成了3D相机,其实3D相机本身包含2D信息,这在2015年、2016年是比较前瞻性的应用,现在随处可见,高铁站的人脸识别设备、酒店前台的人脸识别终端都在应用。
我们当时主要通过四个步骤:
1. 通行人员通过三维终端如配合式设备、通道式设备、抓拍式设备或原有二维终端设备时,终端设备采集通行人员的人脸信息后实时向三维人像库查询。
2. 三维人像库返回比中的人员身份信息。
3. 三维人像库中暂未录入通行人员的数据,终端设备向客户已有的二维人像库查询,比对通行。
4. 未在库人员数据自动录入到三维人像库中,通行人员下次通行时即可完成三维比对通行。
它主要是通过对身份证信息中的照片和现场拍的图像做人脸识别比对,准确率可以保证,在这样的前提下,我们把2D摄像头换成3D摄像头,就可以同时采集到3D信息。虽然采集的3D信息质量不一定很高,但是只要有足够的应用频次,就可以帮助用户实现一个高质量的3D数据库建设,而不需要特地去建一个3D人脸数据库。这是我们的建设流程。
只要思路转换后,就会发现帮助用户建库的方式非常多元,可以有很多入口。人脸取号机、人证核验设备、手持式的移动终端等,所有需要做认证核验的终端都可以变成入库设备,当这些终端应用到生活的方方面面时,采集的效率和频次就会足够高,建设速度就将加快且成本低。
这是支撑的卢这一套系统的产品矩阵体系。
三、千万级刷脸系统关键技术点剖析
首先从系统架构来讲,我们把千万级大库的建库以及比对系统分成三个层次:
-
前端多维智能感知系统
核心是的卢深视高性价比3D结构光相机,它深度集成了高性能三维人脸识别算法,降低了后端的计算开销,保证算法准确率的同时大大降低客户集成成本,形成前端多维智能感知系统。
-
千万大库云端中台
支持千万三维大库人脸建库、清洗和检索,精度远超二维的解决方案,同时,的卢与国产芯片做了深度集成,性能超过同等级国外方案,并且可以与智能前端及边缘节点协同处理,最优化调度系统内计算资源,提高计算资源利用率,降低系统成本。
-
多模态关联分析与预测
在前端感知系统和中台的基础之上,基于大数据的逻辑推理、时空轨迹关联分析,将2D/3D人脸、人体、物品、时间、地点以及人体的体貌特征和形态动作特征等多维大数据融合,深度挖掘数据之间的关联性,实现预测预警。
技术架构分为四个层次,分别是核心算法层、平台技术层、业务中台和应用层。
最底层是核心算法层,其中最重要的是3D算法层,基于RGBD全信息处理,在恢复深度信息上我们有一整套深度感知的算法,包括深度对齐、后处理、人脸检测与跟踪等等。同时,三维重建算法族也是一个核心层次,它可以真正把一个三维物体的形状信息进行完整恢复,这是一个非常重要的支撑层次。
在这个核心算法之上,我们有平台技术层,后端的技术包括通信计算、协同优化等技术。
再往上是业务中台,进行数据接入、数据管理、数据清洗、数据优选。因为前面建库过程中,设备来源非常多元,通过业务中台的一系列数据处理过程后,才能得到优质的数据,然后融到数据库中进行数据同步,最终支撑各种各样的应用。
这是整个技术架构。
经过大家多年的摸索,2D人脸库逐渐形成一套标准,但是3D有深度信息的数据,这些数据如何存储、有什么特点、有何技术要求等方面,行业还没有形成规范。
的卢这些年在这方面不断探索,建立起一整套数据标准和评价体系。我们希望和行业协同,将它变成一个行业标准。
另外,对于深度识别的设备,即传感器本身,需要具备怎样的深度采集能力和精准感知能力?
我们对大库情形下的识别精度也有一整套测试的方法和标准。市面上通行的相机比较强调绝对精度,但绝对精度对于人脸和人体物体的精细特征来讲,并不是一个非常重要的指标。事实上,相对形状的相对精度和对于形状的拟合度是一个比较重要的指标,恢复人脸肌理的特征也是比较重要的部分。我们有一套深度质量的评价体系,对这些要素进行综合性的打分,从而形成对前端相机的整体评价。
3D人脸识别技术算法与2D人脸识别有所不同,通常来讲,2D人脸识别通过摄像头获取图像数据信息后进行人脸检测,然后进行特征提取和信息比对。
而3D的流程比较复杂,前端是符合标准的3D摄像头,在获取了图像数据并进行了人脸检测之后,还需要进行RGBD数据配准与3D信息重建,把人脸信息进行完整的三维恢复。同时,在恢复的三维人脸模型上提取三维人脸特征,最后进行比对。
在后台应用上,我们一整套后台应用服务器,能够单独部署,也可以集成部署,并且支撑高并发请求的快速处理和及时响应。
同时,我们针对寒武纪MLU270的体系结构特点改进了深度学习网络结构,设计最佳并发处理模式,提高吞吐率,充分利用硬件平台算力。在保证精度基本不损失的情况下,突破了三维人脸识别算法的INT8量化技术。
另外强调一下多模态架构的理念。物理世界中的物体都是3D的,获取到完整的3D信息对于系统精准感知和识别的进一步提升非常重要,换句话说,增加数据维度是最有效提升系统感知能力的方式,可以以此突破深度学习发展的瓶颈。
我们认为,多模态的架构是未来的趋势,3D也只是这个多模态架构中的一个方向,但它是一个比较易得的方向,因为它不会改变原来2D人脸识别中各种各样的交互和体验,同时还能提升整个系统的准确性和完全性。当然,以后我们还会融合更多技术,把这个系统做的更好、更安全、更可靠。
总结一下3D识别的优势:
-
准确性高。千万大库下错误率低于万亿分之一,具有极高的安全性。
-
鲁棒性好。不受光线影响,可以实现7X24无间断地安全保障,对于大角度、浓妆识别的准确率更高,体验感也更好,大角度可识别;对不同肤色人种识别率几乎不受影响。
-
安全性高。对于活体检测,可以做到2D平面伪装攻击方式100%防御。
总结一下的卢深视大库识别方案。精准,可以做到万亿分之一误识别率;具备千万级别底库前提下精准识别的能力;高效,鲁棒性好,快速且安全;支持多模态,兼容性好;具有切实可行的建设方案,可利旧,性价比高。
四、的卢深视提供“三维全栈”技术支撑
最后对的卢深视做一个简单介绍。
的卢深视公司基于三维机器视觉和人工智能技术,提供实体空间人像身份、行为、轨迹的精准感知和整体解决方案。公司团队是国内极少在深度感知成像、三维重建、三维识别测量定位等全栈式三维技术领域具备国际领先能力的原创团队。
我们认为3D是一个很大的赛道,这个赛道中的关键点不仅在于算法,还在于硬件传感器,它要面对不同的应用场景。我们常提到的开放场景的空间传感和识别,物体的传感和识别,都是我们的研究方向。
我们总部在北京,在合肥、杭州都有研发中心,深圳是我们的营销中心,同时我们在很多地方建设了本地化的服务网络,跟很多高校也有深度合作。
我们的技术定位,是以“人”为标的物,构建“光电+算法”全栈3D机器视觉及其智能架构。
我用“机器视觉”这个词呼应一下前面华为机器视觉总裁段爱国讲的,我们也认为,以后视觉的发展核心不再是给人看,而是给机器看。3D在这个环节中是非常重要的一个元素。
因为图像视觉发展多年,都是围绕让人眼看着更好去不断演进的,3D的数据,特别是深度数据,是人眼不太能感知到的数据,或者说人眼对这个数据不太敏感,但是对机器很重要,机器需要这些更丰富、更准确、更相关的数据来更好的完成它的任务。
其实光本身的信息中还有很多诸如相位、偏振态的信息,这些都可以进一步提升机器视觉应用的准确性和安全性,从而扩展它应用的范围。
在这个维度中,我们主要是聚焦于人全息特征的精准识别和分析,在3D人脸方向,我们经验比较丰富,另外,我们也在研究人的体貌特征分析技术,以及结合各种各样的数据实现精准的识别的应用。
从基础研究路径看,3D与2D不同,3D传感器非常重要,但目前还处于产业初级阶段。算法、数据、传感和应用,这四个维度交织演进,是我们终极的技术演进路径。
最后回到今天的主题,随着人脸识别在各行各业得到更多用户的认可,千万级大库应用的进一步升级也会成为重要课题。任何一个系统随着广泛的应用都受到更多的关注,也会催生更多新的需求,我们坚持回到技术本身,从技术上提升应用能力。 雷锋网雷锋网雷锋网 (公众号:雷锋网)
。