“深度学习”开启智能视频分析技术的新篇章

物联网的那些事 • 9年前扫码分享

我是创始人李岩：很抱歉！给自己产品做个广告，点击进来看看。

近年来，深度学习在语音识别、图像识别、自然语言处理等应用中取得了显着的成效。但是在安防行业，深度学习刚刚起步。笔者注意到，已经有很多安防企业开始投入资源开发基于深度学习技术的算法、产品。可见，深度学习正影响着安防企业，影响着智能视频分析技术。

物联网

近几年，智能视频分析技术成为安防企业争相追逐的热点和亮点。究其原因，要回溯到安防的本质。安防的本质上是为了保障人身和财产的安全。传统的安防技术更多地强调事中响应的实时性或事后查证的有效性。所以，高清、无损和无延时代表了过去几年安防行业的主要发展方向。

无论是IP方案中的4K、H.265，还是同轴方案中的HDCVI、HDSDI，都围绕着这一方向向前发展。但随着高清的普及，摄像机设备也越来越多，如何有效利用这些资源，成为了业主用户头疼的问题。大量的设备处于“睡眠”状态，只有当发生人身损害或财产损失的事件后，才被“激活”。这种“监而不控”的状态显然不是业主的诉求。于是，智能视频分析技术应运而生。

一、传统智能视频分析技术的不足

智能视频分析技术利用一些图像处理、模式识别或机器学习等领域的算法来分析视频序列中的信息，以达到理解视频内容的目的，也有人称为视频内容分析。有了智能视频分析技术，我们就可以及时地发现视频中的异常情况，第一时间做出反应，减少损失。

当我们还在憧憬着智能视频分析技术的前景时，现实给所有安防智能化厂商上了沉重的一课。很多智能视频分析技术受限于应用场景，为了得到较好的准确率，往往需要“天时”、“地利”和“人和”。好不容易凑齐了三个要素，提供了非常标准的场景，我们仍可能遇到智能分析“罢工”的情况。其实，问题就出在算法本身上。

首先，传统的智能分析算法通常采取人工选择特征的方法，如尺度不变特征,方向梯度直方图特征，局部二值模式特征等。很明显，特征选择的好坏直接决定着算法准确率的上限。算法研究团队的重点任务变成了投入更多的人力去挖掘出更好的特征。

数据集越大，特征越难发现和选择，就好像一个无底洞一样，不断地试探，不断地积累，时间和人力成本相当之高。而所谓SIFT特征、HOG特征、LBP特征，都是算法人员在某种假设的前提下，寻找特定数据集在某一层面的表示。但这种表示是否真的有效，还是要靠算法人员的经验和运气呢?每种特征都有自己的提取方式，遵循着自己的理论支持，但如果理论假设本身与现实相悖呢?我们无从知晓。

其次，有些智能分析算法模型为浅层学习模型，如支持向量机、逻辑回归等。浅层学习模型通常有0或1层隐层节点，可以在一定规模的数据集下发挥较强的表达能力。但当数据量不断增大时，这些模型就会处于欠拟合的状态。通俗点说就是数据量太大，模型不够复杂，覆盖不了所有数据。而算法模型无法解析大数据，直接制约了其应用的广度和深度，也限制了其进一步发展的空间。

深度学习技术的兴起，为我们解决了以上问题。在讨论深度学习技术之前，我们先来谈一谈大数据，因为深度学习与大数据密不可分。

物联网

二、大数据时代的变革

生活在大数据时代的算法人员是幸运的，因为他们拥有数据;生活在大数据时代的算法人员也可能是不幸的，如果他不懂得如何利用这些数据，陷入数据的汪洋中无从抽身。大数据对智能视频分析技术有着深远的影响意义。

大数据时代为算法研究提供了足够多、足够丰富的训练样本。样本的容量和种类是算法模型是否具有泛化能力的重要因素。换句话说，训练样本集的规模决定了模型能否对训练样本以外的数据有效的解释。传统的算法研究不可避免地要遇到小样本问题为了解决小样本问题，模型中加入了很多技巧性的手段，并都没有本质的区别，小样本仍然存在。大数据时代，问题的解决就变得简单粗暴多了。将所观测到的海量数据扔进模型中训练，只要模型足够复杂，就能够有效地表示这些数据。

大数据时代为算法研究提供了高效的计算工具。前面提到，数据量的增加意味着需要更复杂的模型来诠释它。我们辛辛苦苦构建了一个模型，到头来发现模型无法求解，或者求解的时间远远超出我们的想象。我们只能眼巴巴地看着一堆数据，然后酸酸地说，大数据似乎没那么有用。值得庆幸的是，有人已经走在了前面。无论是分布式计算、并行计算还是云计算，都在为之努力，试图解决日益增长的计算能力需求。

三、深度学习技术的出现

许多工业界、互联网界的业内大佬已经开始利用大数据开发了一些系统。百度利用一个近10万小时的语音数据集开发出一款语音识别系统。据介绍，这个系统可以在嘈杂环境下实现81%的准确率。与传统的语音识别系统不同，这套系统并没有采取标准的、计算代价昂贵的声学模型，而是给算法提供丰富的数据，然后让它自己去学习，并取得了卓越的性能。

在这些成果的背后，有着一套共同的算法框架，那就是深度学习。前面提到过浅层学习模型,而深度学习，往往含有更深的层次结构。我们可以认为高层级的特征是由底层级的特征组合得到的。越是低层，特征越简单，如一些直线、斜线、曲线等。越是高层，特征越抽象，越接近所要表达的意图。我们回到图像分析的范畴，对于一个图片来说，最低级的特征是像素，也就是0到255的矩阵。我们通过像素，无法理解图片里的目标是什么。我们从像素中找到了边缘特征，然后用边缘特征组合成不同的部件，最后形成了不同种类的目标物。显然这个是我们所想要实现的。

深度学习初期是一种无监督的特征学习算法，减少了人工干预的步骤，通过多层迭代得到更优的特征。本质上，深度学习也是一种非线性变换，但通过多层嵌套，更适合应用于对大数据内部关系的表示。

四、深度学习的应用

近年来，深度学习在语音识别、图像识别、自然语言处理等应用中取得了显着的成效。但是在安防行业，深度学习刚刚起步。笔者注意到，已经有很多安防企业开始投入资源开发基于深度学习技术的算法、产品。可见，深度学习正影响着安防企业，影响着智能视频分析技术。接下来我们将从几个行业应用来分析深度学习的前景。

1、人脸识别应用。事实上，在安防领域的人脸识别还没有达到理想的效果。究其原因，视频中的人脸处在一种非常复杂的状态。光照、姿态、表情、饰物、分辨率等都影响着人脸识别算法。已有的训练算法，或者说已有的训练数据无法调整出一个具有很强泛化能力的算法模型。未来的人脸识别模型如果想要取得突破，一方面需要更多更丰富的样本数据，如各种光照、姿态、表情下的人脸图像。谁掌握了大数据，谁将抢夺先机。

另一方面，深度学习模型还需要进一步优化。深度模型的理论性还需要加强。到底什么样的模型才算是最优的表示，目前并没有很好的答案。

2、车辆特征识别应用。作为智能交通的一个典型应用，车辆特征识别一直是安防厂商重点关注的技术领域。早期的车辆特征通常为车牌号码和车身颜色等。前几年各大厂商推出的产品都能对车牌号码和车身颜色进行准确识别，但对于车辆品牌和车型系列这些更加复杂的信息特征，并没有很好的识别手段。近两年，深度学习技术兴起，很多厂商利用大规模的数据集训练取得了实质性进展。目前行业水平已经可以达到上千种车系和上百种车标的识别。识别的准确率也已达到实用程度。今后的智能交通设备所能提取的车辆特征将更加丰富，将有助于提升业务部门的工作效率，推动智能交通行业的发展。

物联网

深度学习还有很多应用场景，只要涉及到目标检测、目标识别的地方，理论上都可以应用深度学习来解决。就像百度首席科学家吴恩达在一些报告中提到的，深度学习可以取代现有的很多特征提取、目标检测技术。在未来，深度学习技术将与安防应用碰撞出更多的火花。

五、结束语

智能视频分析技术从产生开始，一直备受关注。经历了起初的期待，走过了应用的无奈，到如今重新审视技术本身，智能视频分析确实还有很长的一段路要走。深度学习和大数据为智能视频分析技术提供了前进的方向。我们也期待，未来有更多新的、合理的模型出现，为我们提供可用的方法，让设备真正拥有“智能”，让安防真正成为大家心目中的“智能安防”。