数据准备的能力,决定企业AI研发的边界
做过产业级AI研发的人,都知道和学术研究的差别有多大。
当前,基于训练样本有明确标签或结果的监督学习仍然是一种主要的模型训练方式。尤其是深度学习领域,需要更多数据以提升模型效果。
在学术领域,已经有一些规模较大的公开数据集,如ImageNet,COCO等。对于深度学习入门者,这些公开数据集可以提供非常大的帮助。
但是对于大部分企业开发者,特别在医学成像、自动驾驶、工业质检等领域中,他们更需要利用专业领域的实际业务数据定制AI模型应用,以保证其能够更好地应用在业务中。因此,业务场景数据的采集和标注也是在实际AI模型开发过程中必不可少的重要环节。
数据标注的质量和规模通常是提升AI模型应用效果的重要因素,然而标注人员的培训与手工标注成本高、耗时长,完全通过人力手动标注数据建立一个高质量、大规模专业领域数据集并不容易,行业中常开的玩笑“有多少人工就有多少智能”就是这么来的。
1分钟读懂智能标注的原理
为解决上述问题,我们可以利用主动学习的方法,采用“Human-in-the-loop”的交互式框架(图1)进行数据标注,以有效减少人工数据标注量。
图1基于主动学习的“Human-in-the-loop”交互式数据标注框架
主动学习(Active Learning, AL)是一种挑选具有高信息度数据的有效方式,它将数据标注过程呈现为学习算法和用户之间的交互。其中,算法负责挑选对训练AI模型价值更高的样本,而用户则标注那些挑选出来的样本。如“Human-in-the-loop”交互式数据标注框架,通过用户已标注的一部分数据来训练AI模型,通过此模型来标注剩余数据,再从中筛选出AI模型标注较为困难的数据进行人工标注,再将这些数据用于模型的优化。几轮过后,用于数据标注的AI模型将会具备较高的精度,更好地进行数据标注。以图像分类问题举例,首先,人工挑选并标注一部分图像数据,训练初始模型,然后利用训练的模型预测其余未标注的数据,再通过“主动学习”中的“查询方法”挑选出模型比较难分辨类别的数据,再人为修正这些“难”数据的标签并加入训练集中再次微调(Fine-tuning)训练模型。“查询方法”是主动学习的核心之一,最常见的“查询方法”有基于不确定性的样本查询策略和基于多样性的样本查询策略。
基于不确定性的样本查询策略可查询出深度学习模型预测时,靠近决策边界的样本。以二分类问题举例,当一个未标注样本被预测为任一标签的概率都是50%时,则该样本对于预测模型而言是“不确定”的,极有可能被错误分类。要注意的是,主动学习是一个迭代过程,每次迭代,模型都会接收认为修正后的标注数据微调模型,通过这个过程直接改变模型决策的边界,提高分类的正确率。
基于多样性的查询策略,可实现对当前深度学习模型下状态未知样本的查询。将通过多样性查询挑选出的数据加入训练集,可丰富训练集的特征组合,提升模型的泛化能力。模型学习过的数据特征越丰富,泛化能力越强,预测模型适用的场景也越广。
如何实践智能标注
为解决大数据量标注的痛点,基于主动学习且融合多样查询策略的智能标注AI解决方案应运而生。通过百度飞桨企业版BML全功能AI开发平台的智能标注功能,开发者们只需标注数据集中30%左右的数据,即可启动智能标注在飞桨企业版BML后台自动标注剩余数据,再返回少量后台难以确定的数据再次进行人工标注,同时提升自动标注的准确性,经过几轮之后,在实际项目测试中,智能标注功能可以帮助用户节省70%的数据标注量,极大地减少数据标注中的人力成本和时间成本。
目前,飞桨企业版BML的智能标注功能已支持计算机视觉CV方向的物体检测、图像分割任务,及自然语言处理NLP方向的文本分类任务。在BML平台主页点击“智能标注”即可免费开启使用。
使用方法也很简单,以物体检测任务为例,共为三步:
- Step1上传数据集并标注少量数据
将所有需要标注的图片加入数据集,并创建所有需要识别的标签按照不同的任务类型要求进行少量标注,如物体检测任务,要求每个标签下的标注框数不少于10个
-step 2 启动智能标注任务并进行难例确认
创建智能标注任务,系统会基于用户选择数据类型及数据量级,自动预估任务运行时长。
智能标注任务启动后,系统自动标注的过程中还会筛出部分难例,用户可以逐一对难例标注的效果确认或修改。
最新版的飞桨企业版BML上,还提供了“指定模型标注”的形式,用户可以选择复用自己之前训练的相似模型,完成对新数据及的快速标注。
-step 3 评估难例效果,完成任务
当用户对难例完成确认后,可以根据本轮次预标注的结果是否满意,判断是否还需要进入下一轮难例筛选阶段。如果满意本轮难例的预标注效果,即可结束智能标注的任务,进行后续的模型训练。
万元福利限时领,助你踏上AI快车道
百度飞桨企业版BML全功能AI开发平台,面向算法工程师提供数据采集和处理服务、多种建模方式和百度自研高精度预训练模型、高效便捷的服务部署等全流程功能,针对AI模型开发过程中繁杂的工作,提供便捷高效的平台化解决方案。
在智能标注功能的加持之下,重复枯燥的标注功能都交给AI模型,大大降低了时间与人力成本。在数据方面,BML提供覆盖采集、清洗、标注、加工等一站式数据处理功能,并与模型训练环节无缝对接,通过数据闭环功能支持高效的模型迭代,AI开发快上加快。
现在百度搜索“百度BML”进入产品主页,不仅可以快速体验“智能标注”功能,还可以参与“2021万有引力计划”,跑一遍模型训练部署,获取最低1000元、最高10000元平台代金券。10000元#xad;代金券在BML平台消费无使用门槛,用来跑个中型POC,妥妥不是问题。