亿欧智库丨案例分析：人人智能，边缘计算+视频监控技术

亿欧网 • 7年前扫码分享

一、背景——从集中式数据处理时代到万物互联为核心的边缘计算时代；

云计算大多采用集中式管理的方法，这使云服务创造出较高的经济效益，而在万物互联的背景下，边缘设备产生大量实时数据，云计算性能正逐渐达到瓶颈（边缘计算在下文第二部分会有详细解释）。

一方面边缘设备的数据量的增加。 思科全球云指数GCI预测，到了2020年存储数据总量将从2015年的1.4ZB增加至6.2ZB，2020年6.2ZB数据中有84%存储在客户端设备上；思科可视化网络指数VNI预测，到了2020年，连接到IP网络的设备数量将接近全球人口数量的三倍，到了2020年，人均网络设备数量将由2015年的2.2部增长达到3.4部，人均IP流量也从2015年的10GB增长至25GB；

另一方面新兴万物互联应用对延迟时间的要求 ，诸如——装载在无人驾驶汽车上的传感器和摄像头实时捕捉路况信息，每秒产生约1GB数据，据麦肯锡预测，到2030年，L4级别的自动驾驶汽车市场规模将达到5500万辆至6000万辆，如何实现短延时将成为无人车上路前的主要研究方向之一。

边缘设备的数据量的增加，网络带宽正逐渐成为云计算的另一瓶颈，然而仅靠提高网络带宽并不能满足万物互联应用对延迟时间的要求，所以在接近数据源的边缘设备上执行部分或全部计算是适应万物互联应用需求的新兴计算模式。

二、概念——何谓边缘计算（Edge computing）？

边缘计算中的“边缘”是个相对概念，指从数据源到云计算中心数据路径之间的任意计算资源和网络资源。边缘计算的“边缘”不限制在边缘服务器这样的边缘节点，还包括网络边缘的摄像头、智能手机、网关、可穿戴的计算设备和传感器等设备。

边缘计算的基本理念指利用边缘设备已有的计算能力，将应用服务程序的全部或部分计算任务从云中心迁移到边缘设备终端执行，降低能源消耗。

亿欧智库丨案例分析：人人智能，边缘计算+视频监控技术

如上图左所示为传统云计算模型，数据消费者向云中心发送请求，数据生产者将源数据发送至云端，云计算利用大量计算资源来处理数据。

如上图右为基于双向计算流的边缘计算模型，云计算中心不仅从数据库收集数据，也从传感器和智能手机等边缘设备收集数据，这些设备兼顾数据生产者和消费者，因此终端设备和云中心之间的请求传输是双向的。网络边缘设备不仅从云中心请求内容及服务，而且还可以执行部分计算任务，包括数据存储、处理、缓存、设备管理、隐私保护等。

三、应用——边缘计算模型+视频监控技术；

分布在城市各个角落的视频监控摄像头属于万物互联应用中的一支，用来应对新型犯罪及社会管理等公共安全问题。传统视频监控系统前端摄像头内置计算能力较低，而现有智能视频监控系统的智能处理能力不足。为此，以云计算和万物互联技术为基础，融合边缘计算模型和视频监控技术，构建基于边缘计算的新型视频监控应用的软硬件服务平台，以提高视频监控系统前端摄像头的智能处理能力，进而实现重大刑事案件和恐怖袭击活动预警系统和处置机制，提高视频监控系统的防范刑事犯罪和恐怖袭击能力。

边缘计算+视频监控技术其实是 构建了一种基于边缘计算的视频图像预处理技术 ，通过对视频图像进行预处理，去除图像冗余信息，使得部分或全部视频分析迁移到边缘处，由此降低对云中心的计算、存储和网络带宽需求，提高视频分析的速度，此外，预处理使用的算法采用软件优化、硬件加速等方法，提高视频图像分析的效率。

除此之外，为了减少上传的视频数据，基于边缘预处理功能， 构建基于行为感知的视频监控数据弹性存储机制 。边缘计算软硬件框架为视频监控系统提供具有预处理功能的平台，实时提取和分析视频中的行为特征，实现监控场景行为感知的数据处理机制；根据行为特征决策功能，实时调整视频数据，既减少无效视频的存储，降低存储空间，又最大化存储“事中”证据类视频数据，增强证据信息的可信性，提高视频数据的存储空间利用率。

四、公司——人人智能；

亿欧智库近日调研访谈的人人智能便是一家基于边缘计算加载视频监控技术的企业，专注做人脸机芯。其机芯芯片的落地，除了人人智能人脸识别算法之外，亦依托于芯片ARM公司的布局。

软银用320亿美金收购的ARM，想让未来所有的设备、硬件都能在ARM的芯片智能技术上运行，为此ARM特地在2017年3月发布下一代的人工智能架构DynamIQ，通过对CPU和系统两方面进行提升，比市面上最好性能的芯片AI能力再提升50倍。“依靠ARM芯片强大的处理能力能够让产品节省80%的成本，研发周期缩短到6~12个月。”

受访者王海增资料：

毕业后在华为做3-4年交换机，后来在三开始做视频会议+视频监控，后来转到了芯片公司——中芯微电子，具体包括芯片监控、智能分析、芯片分析，再后来出来创业成为人人智能的CEO，现年39岁，主要负责规划产品方向等。

业务描述：

人人智能是一家人脸识别服务商，人人智能的人脸识别模组是支持深度学习算法的嵌入式高性能ARM平台，支持外接摄像机等硬件设备，可以直接从视频流检测和载取人脸照片，完成人脸影像识别。目前，人人智能提供了深度学习的软硬件一体化解决方案。他们的产品主要包括硬件模组、物联网云平台以及基于模组的落地产品。

人人智能组织架构：

四个模块：营销中心+产品中心+工业链合作中心+运营； 营销中心：负责寻找市场机会，然后寻找客户，然后转化定单；产品中心：主要是负责研发，然后做产品原型；工业链合作中心：主要是负责系统新进的工程和外包合作伙伴，提供产品和提供产品的定制化；运营：财务、流程，包括一些人力。

五、亿欧智库观点——边缘计算的挑战；

一方面网络边缘设备资源有限，还难以支撑更高阶的功能运算处理；另一方面现有的数据安全方法并不能完全适用于边缘计算，网络边缘高度动态的环境也会使网络更易受到攻击；此外由于边缘设备的异构性，数据表示及操作也有所不同，这将成为数据分析运用的障碍。

再者边缘计算这个概念的提出背负着再造概念的嫌疑。

随着大数据时代的发展，为了解决云计算中心的负载和数据传输带宽的问题，学术界提出了多种关于计算任务从云计算中心迁移到网络的边缘的技术，主要典型模型包括有：分布式数据库模型、P2P模型、内容分发网络模型CDN、移动边缘计算模型、雾计算模型、海云计算模型，以及本文提及的边缘计算模型。

以上种种模型概念之间有重合也有所区分，共同点便是基于CAP理论即分布式系统理论，为了实现计算资源、数据通信、存储以及能耗的综合最优目的，来指导云中心和边缘端的任务分配；多种模型之间的区分在于实现目的的路径不同，详情可参见参考文献《边缘计算：万物互联时代新兴计算模型》，由施巍松、孙辉、曹杰和孙权等撰写。

也许是再造概念，但边缘计算的愿景一直在实现的过程中。 2015年10月，雾计算的支持者组成开放雾联盟；2016年美国联邦政府包括国家科学基金会、美国国家标准局将边缘计算列入了项目申请指南；2016年10月第一届边缘计算会议在美国华盛顿特区举办；2016年11月30日由华为、中国科学院沈阳自动化研究所、中国信息通信研究院、英特尔公司、ARM和软通动力信息技术（集团）有限公司联合倡议发起的边缘计算产业联盟在北京正式成立。

六、访谈附录——人人智能CEO王海增观点（有删减）：

1.为什么安防领域会成为AI的着陆场？

首先安防是政府导向和信息安全双驱动的领域。

1）政府导向：国家政策是促增长和保稳定，在这两块上跟进的投资资金和项目机会会多一点。促增长：促进经济的增长，实际上现在叫经济的稳定增长，保持不下滑的增长率；国内经济增长的两个半，一个是国防军队相关的，另外是公共安全相关的。半个就是医疗相关，这是增量比较多的；保稳定：增加社会安全，保证类似于公共安全稳定。

2）信息安全：注重于管理和行业的私密性的要求，叫安全性的要求。信息安全——在这个行业之内是可以的，在行业之外是不可以的，它算一个监管层。在这个行业里，它会把这个行业分两类，一类是监管者，一类是被监管者。所以在数据使用方面，监管者数据不能给被监管者使用，这种行业内不是一个平等交流。身份证的数据、视频的数据，只能在公安局或者特定的领域使用，这个数据是不能公开共享的。不像互联网，讲求开源共享。

2.对城市公共安全的定义？

1）我觉得城市公共安全的定义，反正就是政府投资建设的行为，就是指这种城市公共安全。它的投资主体和建设主体是由政府主导的，它的实施主体是由一些国家专业部门的，然后它的使用用户反倒是涉及到整个城市群体居民的。城市公共安全最典型就是感觉它的投资主体方和它的运营主体方，和最终使用方，它是几个层次的一个分离的，一个层次这边分割的状态。政治、科技、社会层面的主要定义。智慧楼宇、智慧社区里面这些装的视频监控不会规划到城市公共安全里面。

2）城市公共安全的视频监控会分三个层面进行建设；

政府主导建设：政府主导+政府出资建设，主要体现在路面街道；

企业主导建设：政府主导+企业建设。主要体现在酒店、宾馆、建筑，甚至学校等，就是政府主导这些单位自行解决，但是这就要求你必须说，就像银行一样；

个人主导建设：第三个层面就是指政府可能不一定主导，但是有些个人，还有中小企业自行建设，也是为了自己的家庭保护或者自己周边的院子进行保护；

数据不兼容+数据量大，政府平时不会收集和建设，而是出现事件之后去调用。

3.AI对安防的作用没有质的变化，深度学习和别的智能技术没有太多本质的变化，只不过从一个领域进入另一个新的领域而已。深度学习提高识别准确率，深度学习促进某些技术接近临界生产状态，从非可商业化进入可商业化状态；

正如车牌识别其实早在2009年出现，到现在有7、8年时间。从兴起的一两年到高速发展的三五年，到现在平缓发展的两三年，是一个新技术的导入周期和高成长的平稳发展，发展到一定程度之后，有了一定普及率就不会高速发展了，这是车牌识别。

再有，现在人脸识别太火了，导致人脸识别和别的智能技术，除了本质这块，其实包括深度学习和别的智能技术没有太多本质的变化，只不过只是从一个领域进入一个新的领域而已。文字识别其实是一个机器事物，比如人工AI来讲，机器识别也是AI的一个比较早的阶段，只不过原来有浅层模型，后面有深层模型，深层模型并不是终结，后面也许有更多的新的模型出现。

所以到现在AI对安防这块有多大作用，说质的变化就是靠人脸识别，或者深度模型有质的变化，我们认为一些成功的变化，质的变化还不能说太大质的变化。

因为人脸识别中间是因为准确率从80%多提升到90%多，其实程度也没那么夸张。

深度学习对人工智能带来多大的变化，带来一些变化，但是这个变化产生一些新的希望，但是我觉得没有什么。深度学习是一个现在火的，深度学习对人工智能起到一个很重要的变化，但是这个变化促进了原来有些叫接近临界生产状态的技术，从非可商业化进入可商业化状态。什么叫临界，就是95%的准确度，原来是达到95%的准确度，原来是80%到90%左右，现在提升到90%的准确度。那么，我认为深度学习促进了一些技术的转到了一个可商业的、可深入的一个准确度的一个级别，我认为这是一个变化。

4.模式识别技术已经成熟，但是能不能识别的出来还要看工程条件；

北京市有3.5万个公安建的摄像头，能做车牌识别的只有2000个，分布在红绿灯路口、平常路口、停车场路口，只有这三种场景下才能做车牌识别，其他都是非明确的场景并不能检出来。人脸识别即照片比对，能不能识别出来要看人脸识别放在哪些具体场景，还要看拍摄的照片清晰度合不合适等，有很多限制条件，存在很多工程条件。适用人脸识别的场景有人脸闸机、人脸门禁、人脸自助机等，它有一个特点就是近场容易识别，摄像头和人距离几米之内都好识别，这和静态还是动态没有关系，而是和距离、角度有关系，距离和角度决定人脸识别的应用场景可不可以识别。

5.特定的场景、特定的摄像头才能发挥前端实时车牌识别、人脸识别功能；

做智能分析的摄像头和做公安的摄像头，比例只是一小部分。3.5万个摄像头只有2000个是电子警察，2000个电子警察现在几乎在前端抓拍前端处理，只把结果抓拍后做分析，不把视频做分析。并且有95%的摄像头是不能做这些视频分析，因为受到角度、距离、灯光的影响，不属于近场识别场景。

现在是一个路口有三个摄像头，一个抓车牌，一个抓人脸，一个专门存视频内容。

前端智能就是为了实时响应前端抓拍的这些东西，比如专抓人脸的就要放在前端，摄像头又要配合灯光的问题，配合安装角度的问题，包括在调试的过程中，在路边调，还要跑到机房里调参数，都是在摄像头旁边就有管理服务器或者抓拍设备。

所以在做视频智能分析的时候，不能从传统的业务模型来看这个分析。因为传统业务模型的话，95%甚至99%的摄像头不能做这些视频，角度不好，场景不对，没办法，就要专门建一个专抓人脸的摄像头。专抓人脸的就要放在前端，摄像头又配合灯光的问题，配合安装角度的问题。那么，包括调试的过程中，在路边调，还要跑到机房里调参数，都是在摄像头旁边就有管理服务器或者抓拍设备。所以前端智能就是为了实时响应前端抓拍这些东西。

6.前端的计算资源足够支撑特定场景的识别技术；

车辆识别的运算不算复杂，前端可以承担，一些近场的人脸识别，比对的数据库也相对小，所以前端智能也可以处理。车牌识别分很多种、人脸识别也分很多种，种类的区分是依据场景的不同来划分，场景的影响因子有明暗（光线）、摄像头高清度、摄像头距离、摄像头角度；特定的摄像头+特定的场景可以做到前端实时识别分析处理车牌识别、人脸识别。目前人脸识别没有大规模商用批量使用，问题在于产品也需要一个逐渐发展的过程。

前后端能都能实现识别的功能，但是因为计算资源的受限，所以前端适合处理一些计算量小，距离近的，适中的计算。前端的识别将视频半结构化后方便目标分类、目标检索。前端的功能是通过前端分析，将设备和应用场景分类化，从而让智能分析功能进行场景化分类。

7.政府每三年更换一批设备，出于维稳业务主导，而不是技术的影响；

设备的报废周期也是三到五年，政府的采购周期是每三年换一批设备，等哪一个技术成熟了，三到六年就把它换成新的技术。政府制订财政规划是按照它的业务目标，怎么维护这个目标，怎么维稳，有技术因素，也有业务管理的因素。业务主导，而不是技术主导，就因为想增加维稳才上高清。

本文作者吴妙芸，亿欧专栏作者；微信：imababude（添加时请注明“姓名-公司-职务”方便备注）；转载请注明作者姓名和“来源：亿欧”；文章内容系作者个人观点，不代表亿欧对观点赞同或支持。

随意打赏

亿欧智库