特斯联普惠AI：CV弱监督自训练引擎推动AI技术有效落地

砍柴网 • 2年前扫码分享

机器学习是推动人工智能(AI)向前发展的核心技术,过往,AI领域的主要发展聚焦于拓展机器的能力,随着AI从早期的野蛮发展阶段步入落地应用阶段,在与各个行业的实际结合过程当中,如何能将人类经验与机器学习规则充分结合,使机器更高效地学习,成为了AI发展所亟须解决的关键问题。

要使机器具备人类的经验,少不了人工的参与。以往的机器学习,往往需要大量的数据信息以及较高的人工参与(如对数据的标注等)程度,这使AI在行业中的应用也面临着耗时、耗力的问题,而由人工参与导致的数据标注错误更容易影响训练的效果。

日前,特斯联的首间人工智能开放创新中心(下称:科创中心)已宣布在德阳AI PARK落地运营。科创中心同时兼备着算法孵化、科研共享、及人才培养的使命。据特斯联介绍,为解决前述问题而打造的弱监督大模型训练体系及联邦学习安全训练体系,即为科创中心最核心的技术亮点。

特斯联德阳AI PARK内景

特斯联科创中心致力于通过九章算法赋能平台向不具备AI能力或弱AI能力的用户提供AI算法孵化服务能力,因而弱化机器学习对标签数据的依赖、弱化人工参与算法训练为重中之重。目前针对计算机视觉、自然语言处理、推荐预测、知识图谱四个方向共十三个细分项,特斯联与学术生态及产业合作伙伴已展开深入合作,并打造了弱监督体系训练平台。其中,在计算机视觉领域,基于对比式自监督学习(Momentum Contrast,下称:MoCo)框架,特斯联构建了CV弱监督自训练引擎,在图像分类、目标检测、实例分割三个领域,实现最优性能。

优化MoCo自监督学习框架,构建CV弱监督自训练引擎

在计算机视觉现有的弱监督学习框架中,由于memory bank思路易于实现,其应用最广也最为成熟。然而这一思路也存在着明显的缺点:

1.首先,每一轮训练需要对所有样本特征进行存储,其内存空间消耗巨大;

2.此外,所有样本特征仅在每轮训练结束后方可更新,导致更新延迟,实验效果并不理想。

据此,特斯联研发团队选择采用MoCo系列自监督学习框架作为基础学习框架进行优化,研发出了自训练引擎及相关算法。

MoCo是一种在高维连续输入中建立离散字典的方法,字典是动态的,键值(keys)是随机采样得到的,编码器(key encoder)在训练中进行更新。假设好的特征可以从包含大量负样本的字典中学习而来,而编码器能够在更新中尽可能保持一致。在MoCo框架的训练过程中,每一步训练均会以“批次(batch)”为单位,将当前批次样本特征更新至队列,并将最旧的批次样本特征从队列剔除,实现动态存储,将memory bank的样本特征可存储数量与批次大小(batch size)分离,提升训练效率。

特斯联CV弱监督自训练引擎技术在传统的MoCo系列自监督学习框架上,做出了五个方面的创新:

1.特斯联将MoCo中采用动量编码器的方式改为指数加权移动平均(EMA)算法更新,其公式如下:

各数值的加权影响力随时间呈指数式递减,时间越靠近当前时刻的数据加权影响力越大,以此来提高当前和较早期键值之间表示的一致性。

2.Transformer模型结构首次推出是在NLP(自然语言处理)领域,最近两年开始引进计算机视觉领域且呈主流发展趋势,为了更好地支持基于Transformer结构的模型算法,特斯联吸纳由清华大学、西安交通大学以及微软亚洲研究院的研究者提出的 MoBY 自监督学习方法的优化思路,将BYOL(由Google DeepMind提出的算法)中的非对称编码器、非对称数据扩充、动量调度,与MoCo中的动量设计、键队列、对比损失相互结合。由此,可借助BYOL先进的算法架构,以出色的性能支持基于Transformer结构的模型算法,进而丰富弱监督训练引擎所支持的模型种类,提高引擎的模型多元性。

3.事物形态的变化不会脱离其核心,图像风格的改变亦不会影响其核心内涵。基于此前提,特斯联吸纳了由Google DeepMind研究者所提出的ReLIC自监督学习算法思想,将因果框架引入MoCo,通过因果不变性原理,在主流的InfoNCE损失函数上进行优化,显性约束模型的学习目标,鼓励模型学习到图像中的核心内容。由此,模型可最大程度挖掘到图像中真正有用的内容信息,降低对图像风格改变的敏感度,从而整体上使模型具备更高鲁棒性,性能更稳定。

4.参考强化学习的Prioritized Experience Replay算法思路,特斯联以对比损失值作为优先级,引入sum-tree数据结构代替队列结构,实现高效的优先级存储,完善“样本特征淘汰机制”,由此,训练可最大程度保留信息熵较大的特征,进一步提高模型的训练效率以及学习效果。

5.针对目标检测及实例分割下游任务,由于采用SGD优化器优化Transformer结构模型,会存在精度大幅下降,超参数鲁棒性差等问题,特斯联研发团队将Transformer中的convolutional stem替换为patchify stem,在稳定训练的同时提高训练效率,降低超参数的影响。

降低人工参与成本,CV弱监督自训练引擎助力工业智慧化转型

特斯联的CV弱监督自训练引擎在工业场景中尤其有着不可替代的价值。

在工业互联网实践中,大量工业算法的研发以缺陷检查为目标。然而坏件本身是个小样本事件,且坏件形态各异,因而在数据收集层面以及数据人工标注层面,使用标准的大量有标签的坏件数据对检测模型进行训练,在产业中的实现难度极高。

特斯联CV弱监督自训练引擎及优化后的MoCo框架则可帮助厂家将此产业难题分解成多个简单的子问题一一解决。厂家可先从工业生产环境收集大量零件图像样本并对少量坏件数据进行标注,然后根据平台提供的评估指标选定模型,即可在无需标注的情况下直接使用零件图像样本开启训练。

在开启预训练流程后,CV弱监督自训练引擎首先会结合数据以及下游任务目标进行分析,为模型自构一个或多个自学习子任务,然后借助优化后的MoCo框架,帮助模型不断学习和挖掘零件图像样本中的有效信息,例如正常零件纹路,正常零件外观,正常零件隐性特征等等。完成预训练流程后,引擎将进入下游任务训练流程,配合半监督技术和少量坏件数据再次训练。待训练完成,即可得到最终的检测模型,帮助厂家完成大规模缺陷检查任务。

不难发现,CV弱监督自训练引擎的应用可以充分利用现有的沉默数据,极大降低数据标注的人力成本及时间成本,而优化后的MoCo框架不仅仅提高了精度,也在一定程度上降低了计算资源的消耗,提升了计算的效率。这都帮助降低了AI在产业界应用的门槛。

实验效果出众,CV弱监督自训练引擎促AI应用落地

为验证CV弱监督自训练引擎改进算法的有效性,特斯联研发团队分别按照MoCo V2,MoCo V3,MoBY三篇论文的实验模型选型、制定参数配置及训练策略,将相应的模型在特斯联的自训练引擎上重新训练。实验结果显示,CV弱监督自训练引擎所训练出的大部分模型在主流的Linear Probing性能评估上超过了前述三篇论文的实验结果,如下图所示:

特斯联普惠AI：CV弱监督自训练引擎推动AI技术有效落地

ImageNet-1K Linear Probing性能对比实验结果

不光如此,特斯联所打造的CV弱监督自训练引擎还在2021年度ICCV(国际计算机视觉大会)的赛事中跻身前十名。将特斯联CV弱监督自训练引擎技术导入特斯联的弱监督训练体系,将提高平台大部分CV训练模型性能。而用户亦可在科创中心,基于九章算法赋能平台,通过零门槛的训练,生成自有知识产权的高性能CV算法。

在特斯联看来,降低机器学习过程中的人工参与,即可在一定程度上让更大范围的企业有机会参与到人工智能的研发当中,也推动AI向更为细分的领域渗透。特斯联创始人兼CEO艾渝对此表示:“就像是AI产业发展的木桶原理,如果细分市场的发展相对较慢,那么整个AI产业的推进也会有困难。我们希望通过科创中心以及特斯联自身的技术专长,帮助中小微企业缓解AI研发中的问题,找到AI有效应用落地的路径,也带动整个AI产业,再向前走一步。”