赵勇：智能数据挖掘，将是安防领域接下来的主战场

亿欧网 • 7年前扫码分享

我是创始人李岩：很抱歉！给自己产品做个广告，点击进来看看。

【编者按】随着底层技术的突破和国家政策的扶持，人工智能领域正在成为创投界新的风口。而对于其中的计算机视觉技术创业公司而言，目前可商用的落地应用场景，还主要集中在金融支付、安全等领域。而安防，则是其中已然得到验证，并且被多数公司选择首先切入的领域。

本文转自“格灵深瞳”，作者：赵勇；经亿欧编辑，供业内人士阅读。

以下是赵勇老师的叙述：

人工智能的四个机遇：安全、汽车、医疗、机器人

未来十年，人工智能在不同行业的机遇，我个人比较看好的有四个，分别是：安全、汽车、医疗和机器人。 这些领域都是万亿级的市场，尤其是汽车和医疗。对于安防，不同的国家投入是不同的，但中国显然对之投入很大，美国同样。

这些领域非常重要，但不是每个领域发展成熟的时间都一样。在我看来，安防会是最先成熟的领域。安防也是格灵深瞳现在主要的业务，这个市场已经存在，而且我预计，在未来两三年内，这个领域的部分创业公司会变成上市公司。

汽车从现在来看很有可能是下一个成熟的领域，再过两三年量会上来。至于医疗，我把它排在第三。医疗的难点在于，这不仅是大数据的问题，还涉及到小数据问题。对于小数据问题，它在数据的规模上限制是比较大的。比如说某种肿瘤的病例，每年就只有这么多，想训练个好的模型出来不容易。但是它又不是仅仅扩大数据量就可以了，机器学习最重要的是要跟最优秀、最有经验的医生来学习，不像自动驾驶或者安防，只要找一个会用电脑的人，都可以标注数据。它是一个需要优秀的专业人士参与数据标注、数据采集的过程，是小数据问题。

医疗领域可以容纳大量的公司，去研究各种不同类型的疾病诊断；而缺点就是，解决医疗问题需要很长时间。 在经济较发达的国家，医疗是最大的行业。比如美国，它17%的GDP是跟医疗有关的，越富有的国家，人们对健康投入越多，这是一个成熟国家的标志。中国再过20年，和现在比还会发生更大的改变，人们一定会在自己的健康上面投入非常多，所以人工智能在医疗领域的市场潜力是最大的。

机器人也会是一个很大的领域，但它却是充满了最大的不确定性。 首先它目前还不是一个已经存在的行业，现在市面上还基本没有成熟商用的机器人，还在摸索阶段。我们都向往以后的生活和工作能够被机器人帮助，但要实现它，到达消费者期待的那一阶段，还是很困难的，也需要很长时间。

安防三大支柱：智能硬件、算法、大数据

在当前阶段，行业对人工智能技术切入安防领域，最大的期待就是，可以把这个行业从以视频为核心，转变为以情报为核心。人们看视频的目的，不就是为了得到情报吗？但是以前从海量数据中获得情报的过程，类似于海底捞针。我们希望，人工智能让“海底捞针”变成“自动化”。

现在安防监控领域之所以还有机会，是因为人工智能使得一个新的潮流、新的转型在这个领域发生了。潮流推动着变化，变化给创业公司提供了机会。

也有人会问，在安防行业中，已经有了一批龙头厂商，那么，人工智能创业公司的机会在哪里？而在我看来，这是一个未知的过程，也是最有趣的过程。

在当年，索尼、三星、博世等海外公司占据了安防市场大部分比例时，数字化趋势带给了海康切入这个市场并成功的机遇。而在今天，安防监控之所以还有机会，我认为，很大程度上，是因为人工智能带来了这个领域一个新的转型机会。

如果现在有公司去做高清摄像头，我觉得是找死，因为从技术到供应链，海康、大华等公司已经做得非常好了。而在智能摄像头领域，格灵深瞳的产品，每张脸从左耳到右耳，150像素，我可以监控40米宽度的通道。在这个品类里，我们会做得更好。而事实上， 我认为，当人工智能进入安防，10年之后，所有的摄像头都会变成智能摄像头。

一个行业必须要转型才有新机会，如果没有这个转型的机会，根本不会出现一个创业公司变成巨头的机会，没有的。

其次，在安防领域里，有一个常见的误区，那就是迷信算法，认为算法可以解决一切。 这显然是不正确的。就拿人脸识别来说，今天的算法不能够解决所有的问题，只能够解决一部分问题。有些人工智能公司会对外宣称，其人脸识别算法错误率能达到亿分之一，这是能够做到的，但它往往是在特定条件下得到的。比如说摆拍的静态识别。如果放在监控环境下，一个人低着头打着电话，只有100×100像素的时候，那么现在还远远做不到这样的精准度。

今天很多人在说人脸识别，那种看到一张脸、算出来一个特征，跟黑名单比对一下看谁比较像，这是很浅很浅的挖掘。你知道坏人是谁，把他给找出来，只能解决这种问题。但是我们的客户都希望说，我不知道坏人是谁，你给我找出来，这绝对要靠很深度的挖掘。

如果人工智能只是停留在算法的层次，那还是远远不够的。而安防是全世界最大的物联网。这是什么概念？ 像因特网，大家都很熟悉了，在互联网上，有很多人在用它，有内容的创造方，有观看者。你早晨起来出门，发了一个微信，你的朋友看了并点赞，你们就是内容的生产者和观看者。每天有多少人发这样的帖子，所以互联网上充满了各种各样的数据。但安防呢？你出门走出小区，被门口的摄像头拍了下来，它识别出你的穿着，你的表情和面部特征，这个数据量已经远超过了网上的发帖。而每隔20米，可能就会被新的摄像头拍下，识别一遍。以北京为例，它安装的摄像头总数已经超过200万个，它们每分每秒都在录像，每天就会产生长达200多万天的录像。安防物联网产生的数据量，已经远远大于过去的互联网。

针对这样庞大的数据量，你的识别精度有多高？你怎么处理大量的错误？我们真的做好这个准备了吗？我觉得这是一个极大的挑战。如果要走通这条路，需要连通各种多模态的数据，需要把数据挖掘做得很深厚，需要人工智能的硬件进一步改善。

在这种情况下，我认为人工智能时代的安防有三个支柱：智能硬件、算法、大数据。

首先，是硬件。 你想象一下，北京的200万摄像头，如果把这些数据全部传到数据中心的话，带宽的概念是什么？一路高清视频的码流一般在2-4兆bps。今天一个千兆以太网，从理论上也只能传250路，但是千兆以太网指的还是它的基带层的带宽，高清视频根本传不到250路，能传100路就可以了，那么200万路需要多少带宽？今天国内地级市的安防网络基本上就是千兆以太网，一些较发达城市可以达到万兆，万兆也只能传2000路。如果硬件不能够智能前端化，数据都传不到数据中心。所以第一步，硬件的智能前端化，可以对目标做现场的检测、跟踪和去重，能捕捉关键数据，并且在前端做初步加工，只把关键数据汇聚到数据中心处理，这样才能形成一个大数据系统。

第二，算法。 前端的算法进行物体的检测跟踪，后端的算法就是识别物体，对图像做一个精确的结构化或者特征化分析。

最后非常重要的一点是，我们要在后面非常深入做下去的大数据分析，不光是基于视觉图像，而是要把多模态、大规模的数据放进来， 比如通信记录、电子邮件、微信微博、车辆轨迹、消费记录等等都结合起来，在应用层面做非常深入的挖掘。

而在这三个方面中，硬件也面临很多挑战，但随着时间的推移，是一定会解决的。单纯的算法，我觉得已经比较接近于极限了。深度学习进展很快，今天算法的主要瓶颈，就在数据上。我们发现，拍摄清晰的照片，基于同步算法，效果立刻变得很好；拍摄效果很糟的照片，算法很难提升照片的效果。所以，我觉得这部分进展的空间越来越小，除非有大规模理论上的突破。而大数据，今天则是还处于刚刚起步的阶段。

而这三个领域，都不是传统的安防厂商所擅长的。这些问题不可能被一家都公司解决，甚至我可以下定论，不可能被一家创业公司解决。应该是很多公司在不同的地方发力，一起去解决。这里面有很多机遇，这也是为什么我们集中力量主攻安防领域的原因。

数据挖掘将是接下来的主战场

关于格灵深瞳，在硬件方面，去年10月，我们推出了“深瞳人眼摄像机”。它采用公司独创的像素动态瞬时分配技术，可以在很短的时间内将局部画面的有效像素提升百倍以上，整体画面可以达到数亿等效像素。现在我们面临的挑战主要是成本、稳定性、可靠性、出货能力等几个方面，但是要解决这些，对我们来说只是时间的问题。

算法我们也已经有了，现在格灵深瞳要做的，是向下切软件，向上切大数据。我们如果要把大数据做好的话，就要密切切进用户场景里去，而不能只把自己当成一个标准产品的提供商。

在其中，存储也是一个重要的问题。很多人觉得储存简单，但当智能化在安防领域发生后，视频数据的内容，转化成了大量的结构化数据，但你不能把结构化的数据推给客户，数据仍然是海量的。以前是海底捞针，现在把海里所有的针捞出来，但只有一根针是用户想要的，你放了一车皮的针，也是很难找。结构化储存的行为跟视频完全不一样，这对文件系统和数据系统都提出了新的挑战。

直到现在，业内都找不到一个很靠谱的方案，处理超过1000路人脸识别产生的数据和检索。这是个新的挑战，必须跟大数据公司合作，去解决这个问题。

其实安防领域跟医疗领域，都是比较窄的领域，它们的核心问题就是人。而解决人的问题，首先就需要更多的数据。 要把人看清楚，对传感器要求很高，我们就去解决智能硬件的问题，前端做智能硬件，然后是人脸识别的算法、人体比对的算法，我觉得进步都很快。但当我往未来看的时候，我反而觉得它们进步的空间越来越小。主要还是大数据，我觉得这个领域在安防行业几乎还是一个空白。如果把格灵深瞳的威目当成一个车辆大数据，那么“人”的大数据，就是我们现在正在做的东西。

数据挖掘，将是接下来安防领域的主战场。

人眼摄像机原理

人眼摄像机是基于仿生学原理，把运算和光学结合在一起，50米距离范围内可以展现出更为清晰可识别的人脸，100米范围内可以保证看清楚全身的主要特征。

关于它的原理，其实非常简单。摄像头要么看远，像望远镜，要么看广，像鱼眼，但是没有办法两个角度兼得。但是人眼，却能从某个程度上实现兼得。人的眼球单眼角度是160度，很广，双眼是190度，就超过一个平面，你是可以略微看到你眼睛后面的东西，那么作为一个广角相机，它最大的缺点，就是它的分辨率散开，但事实上，我们来看一下视网膜上的像素分辨率，它有一个地方叫黄斑，它很小，但是我们大量的像素都是集中在那个小地方。

视网膜是一个160度的半球，把眼球的中心跟黄斑连接起来，形成一个圆锥，这个圆锥只有2.5b，但是我们视网膜上75%的像素都在这儿了。 简单地说，如果没有黄斑，我们看到画面全是模糊的，但是虽然是模糊，它却可以帮助我们判断出哪些地方可能是有兴趣的，这个时候我们转动眼球，去用很清晰的那块扫描到你想看的东西。这就是我们了解世界、用肉眼看东西的过程。我们的眼睛看似是个广角，其实是广角加窄角的结合，广角的被大脑迅速识别出来，引导眼球迅速旋转，看清楚细节，不停反馈。

我们为什么叫人眼相机，就是这样的原理。我们的算法能够从广角的画面里面，看清楚你的目标在哪儿。

智能化时代会有新的机遇，也会有新的坑出现。