华为方舟实验室计算机视觉CTO田奇：大算力大数据时代六大CV前沿探索

亿欧网 • 5年前扫码分享

我是创始人李岩：很抱歉！给自己产品做个广告，点击进来看看。

在刚结束的2019国际智能科技峰会上，华为诺亚方舟实验室计算机视觉首席科学家田奇教授发表了以《大算力大数据时代的计算机视觉前沿探索》为主题的演讲，并且在随后的媒体沟通环节发表了自己对于AI算法、数据、算力等方面的观点。

自2018年6月份底加入华为诺亚方舟实验室，并担任计算视觉首席科学家，田奇教授便一直主导诺亚方舟实验室视觉方向的前沿研究，构建华为在各视觉业务下的算法竞争力和护城河。然而田奇教授和华为诺亚视觉实验室成员一直都非常低调，媒体曝光率较少。华为诺亚视觉实验室具体的研究方向和最新进展等相关信息也难以从网络上获得。

下文结合田奇教授在大会上的演讲以及媒体沟通会上所交流的观点，分别从诺亚方舟实验室在计算机视觉领域的主要研究方向、相关研究成果、以及田奇教授对于人工智能产业发展的观点等角度展开介绍，对华为诺亚方舟实验室正在开展的工作带来多角度的诠释。

诺亚方舟实验室六大CV研究方向及相关挑战

目前，华为拥有着超过18万名员工，在全球170多个国家经营业务，2018年营收额高达1085亿美元，并且成功跻身财富500强第72位。在华为高速增长的企业财富以及超强的业务布局能力背后，最为关键的一股力量莫过于华为遍布全球各地的14个研发中心。

作为华为的AI研究中心，华为诺亚方舟实验室便是这14大研究中心当中不可或缺的一员， 同时也承载着华为打造世界顶级人工智能实验室、帮助公司以及整个产业实现AI战略转型的宏伟使命。

以田奇教授为代表的AI研发人员主要专注于诺亚方舟实验室计算机视觉领域的研究。据田奇教授介绍，诺亚方舟实验室在计算机视觉领域的研究主要分为六个方向，它们分别是：底层视觉、3D视觉、语义理解、数据生成、视觉计算、视觉与多模态的融合。

第一个研究方向是底 层视觉，该部分的研究课题主要致力于提升拍照体验。 目前低分辨率和噪声是影响拍照体验的重要因素，虽然对已拍摄的照片进行超分和去噪可有效提升用户体验，但是也存在噪声统计特性难以估计、多重处理后原始图像和噪声难以恢复、图像退化模糊之后还原难等缺点。

第二个研究方向是语义理解。 图像视频内容中通常包含着非常丰富的语义信息，诸如扔东西、偷窃等个体行为以及聚会、斗殴等群体事件。因此，语义理解技术的发展能为平安城市、终端视觉等业务带来巨大的商业价值。但目前相关技术的发展也存在一些挑战，一方面，同类事件之间的不同表现行为不易辨识；另一方面，不同场景当中的相似行为可能代表的语义不一致。

第三个研究方向是3D视觉。 相较于二维数据来说，三维数据中蕴含着更为丰富的信息，因此也被一致认为是计算机视觉的未来。但是三维视觉发展也面临着众多挑战，以医疗影像为例：医疗影像的数据标注需要极为专业的知识，在大数据时代，获取具有精准标注的医疗数据困难且昂贵；此外，医疗影像当中区分正常样本和不正常样本难度较大，譬如需要对一些器官病变的细微之处进行识别。此外，视频数据当中存在大量的冗余信息，如何从这种海量的冗余信息中挖掘出有用的信息也是一个很大的挑战。

第四个研究方向是数据生成。 丰富的数据是算法研究的保障和基石，但是在实际场景当中，由于版权和隐私等限制会导致数据获取难度大、人工标注成本高等问题。如何通过低成本的方式获取实用的数据已经成为了行业发展的重中之重。通过现有的数据生成技术生成的数据大多存在图像质量差、同质化现象严重等问题。

第五个研究方向是视觉计算。 视觉计算是深度学习应用落地非常重要的一环，现在行业内有两个研究比较多的课题方向：一个是现有网络模型的压缩与加速，另外一个就是自动搜索新的网络结构。由于目前边缘计算的算法相对独立，行业缺乏统一的平台，调用极其困难，而且行业内更缺乏一些针对特定视觉任务的网络压缩与加速算法，这导致了这一课题研究方向存在巨大的挑战。此外，现在神经网络人工构建策略费时费力，虽然网络结构搜索能够在一定程度上解决这一问题，但是其在算法和效率上仍有较大的进步空间。

第六个研究方向是视觉与多模态。 真实世界中的数据存在语音、文字、图片、视频、雷达激光等不同的模态形式，不同模态的数据在计算机世界之中的相互转换已经成为了一门专业学科。目前融合多模态信息的方案往往面临数据异质性问题，即不同模态的信息难以统一表示；此外，评估多模态数据之间转换性能的准则比较主观，不能很好地进行客观评价。这些方向正是需要行业加大研发力度的地方。

五大CV技术创新，田奇团队的行业“药方”

聚焦于计算机视觉研究的六大方向，面对行业提出的挑战以及新的难题，田奇教授及其团队成员积极攻克难关，通过新的算法以及求解模式给出了新的行业药方 ——诺亚方舟实验室给出了在神经网络结构搜索（NAS）、目标检测、行人再识别、网络压缩、三维物体检测等方面的技术解决方案，并取得了优于行业的突破性创新成果。

在神经网络结构搜索方面，现有方法的搜索网络与测试网络存在较大深度差异。 如CMU和DeepMind联合提出的DARTS方法中，搜索网络只有8个单元，但是测试网络有20个单元。然而，在较浅的搜索网络中搜索到的结构不一定适合较深的测试网络。如果直接增加搜索网络的深度，又会导致显存爆炸的问题。对此，华为提出一种新的网络搜索方案。据悉，目前华为这一方案搜索到的网络结构在CIFAR10测试得到2.55%的错误率，迁移到ImageNet上在移动设置下得到24.5%的Top-1错误率。这种新方法同时极大地降低了搜索开销：相较于在ICLR 2019上发表的工作DARTS（搜索时间需要4GPU天），的新方法搜索过程仅需0.3GPU天，却能得到更好的性能。

作为计算机视觉非常基本的技术，目标检测对大量应用都有着广泛的影响力。 目前的物体检测框架主要分为单阶段方法和两阶段方法，前者速度更快而后者精度更高。目前最好的单阶段检测方法基于关键点的检测，并且通过角点的组合，确定目标框。但是这种方法很难感知物体内部的信息，导致网络生成很多的错误目标框。为此，华为提出了一种借助物体中心点去检测物体目标框的方法，引入一个中心关键点，以筛选检测出的目标框。如果待定的目标框的中心区域包括某个物体的中心点，则该目标框即为可能是正确的目标框，否则该目标框将被去除。实验结果表明，在目前最具挑战性的MS-COCO数据集上，该方法超过了所有已知的单阶段检测方法，并大幅度领先，领先幅度至少达到4.9%，几乎达到当前最好的两阶段检测方法的准确率。该方法目前已开源，并且获得了业界同行大量关注。

行人再识别技术在平安城市、智慧园区等领域有着广泛的运用。 当前行人重识别数据标注方法存在着标注难、成本高等问题，为此，华为提出新的行人重识别解决方案来大幅降低标注成本，使得能够在新场景中快速部署行人重识别模型。从实验结果来看，华为的行人再识别技术，在弱监督场景下的准确率得到了显著的提升。

网络压缩对端侧设备上的应用具有重大价值。 目前业内在不损失精度的情况下可达到数倍的压缩加速比，但是由于隐私、法律、传输等方面的原因，用于压缩训练的数据常常不可获得，进一步提升了该问题的难度。华为在没有原训练数据的情况下，采用生成网络提供训练数据，设计损失函数来得到和真实图片达到相同近似分布的数据用于训练，并做网络压缩。从得到的结果来看，在MNIST上，对LeNet-5架构的压缩可以保持98.2%的准确率，超越之前最好的算法6%，接近使用真实数据的压缩算法所获得准确率。

对于可广泛运用于无人驾驶当中的三维物体检测而言， 远处物体二维图像上很小的位移量便会导致三维空间上巨大的偏差，但是已有的算法很难达到非常高的三维覆盖率。华为提出利用强化学习方法来进行轴向矫正。从实验结果来看，在KITTI鸟瞰图评估和三维物体检测数据集上，华为提出的方法相较于当前最好算法Mono3D和Deep3DBox性能提升了6%左右。

深度学习仍在进步，算法与算力是相辅相成的

在演讲结束后的媒体沟通环节，田奇教授介绍了相关技术以及研究在具体场景当中的运用，并且发表了自己对于算力、算法等方面的看法。

基于华为昇腾芯片，华为数据生态等多方面的资源支撑，田奇教授带领诺亚方舟实验室相关人员在计算机视觉多个领域开展研究，并最终将一系列研究成果运用于包括手机终端、智慧医疗、平安城市、安防、数字娱乐等实际的场景当中。田奇表示：“我们主要致力于通过我们的创新研究，使机器具有感知和理解周围世界的能力，并最终实现我们的商业价值。”

最近一段时间以来，深度学习技术发展缓慢或者到了一定瓶颈的说法也一度成为各界人士讨论的话题。在田奇教授看来，前两年深度学习火热起来其实与之前的长期积累分不开，只不过是大家到了爆发的阶段才关注而已，目前深度学习也依然在不断地发展和进步。

由于算力的提升，人工智能技术的发展也取得了巨大的进步。目前业内出现了AI发展该重算力还是重算法的讨论，田奇教授针对这一问题阐述了自己的观点，其本人表示： “在终端的运用上，算力的提升为大量的算法以及数据运算提供了便利，使得更多的算法有了用武之地；同时，超大型算法的训练与求解又依赖于算力的发展。然而，没有较好算法的提出，算力的价值也无法体现。算力就像电、而算法就像发明的电灯泡一样。所以单纯的算力至上或者是算法至上的说法都是错误的，算法与算力的关系其实更是一种交替融合、相辅相成的状态。只是从学界和产业界来看，目前高校里面更注重算法的研究，而企业界因为具备大量的算力，于是相对更倾向于对算力的依赖。”