如何构建更好的AI 吴恩达给出这样的建议:以数据为中心
现在人工智能的发展可谓是如火如荼,在人工智能(AI)体系中,算力、算法和数据作为人工智能进化的三大元素,分别承担着人工智能在基础设施能力、工作指导方法和算法(进化)依据作用。算力是技术设施能力、算法是工作方法,而数据则是优化算法的依据。
在机器学习领域,训练数据的准备是最重要且最耗时的任务之一。目前,一些研究认为,微调AI模型参数就能取得SOTA的时代已经过去,专注于提升训练数据的质量,也许是更重要的工作。
来自谷歌AI的最新研究表明,要想在细分领域取得更好的模型效果, 精准优质的数据十分重要,它在极大程度上决定了AI模型的性能。
吴恩达(英文名 Andrew Ng,人工智能和机器学习领域国际上最权威的学者之一)尤其看中数据的作用,他曾不止在一个场合说过:
“一个机器学习团队80%的工作应该放在数据准备上,确保数据质量是最重要的工作,每个人都知道应该如此做,但没人在乎。如果更多强调以数据为中心而不是以模型为中心,那么机器学习的发展会更快。”
今年10月,吴恩达还宣布了首届以数据为中心的 AI 竞赛(Data-Centric AI competition)落下帷幕。区别于传统的以模型为中心的比赛(Model-Centric AI competition)不断改进模型以提升准确率的方法,这项比赛通过给定模型的方式,要求参赛者通过不断改进数据以获得更好的成绩。
以数据为中心的AI(data-centric AI)这一概念,简单概括来说就是——想要提升模型的表现, 我们要花费大精力保证训练数据集的高质量。
那么如何保证“数据质量”呢?这里就引入了对于训练数据的采集、清洗、信息抽取、标注等服务,以采集和标注为主。其中数据标注为人工智能人工智能技术提供了大量带标签的数据,供机器训练和学习,保证了算法模型的有效性。简单来说,数据采集决定了训练数据的场景丰富度,而数据标注影响了训练数据的精准度。
如何获取机器学习训练数据?
无论是个人或高校项目、还是 商业 AI项目,获取训练数据主要有三种形式,分别是开源数据集、自己构建数据集和专业训练数据提供商。在需要大量训练数据的的情况下,采购专业的训练数据服务是推进项目的最优选择。
目前,国内有一家代表企业:云测数据——正在为计算机视觉、语音识别、自然语言处理、知识图谱等AI主流技术领域提供训练数据,以帮助相关客户来改善和提升机器学习模型表现。仔细了解之后我们发现其核心服务如下:
基础数据集:图像/语音/文本等在多场景下的数据集;
数据采集:数据场景实验室用于AI应用场景的构建;
数据标注:视觉、语音、文本的全品类标注能力;
数据处理工具:数据标注平台、数据集管理系统的技术支撑;
云测数据基于数据产品、数据处理工具与数据服务的三螺旋,为机器学习提供大规模训练数据,为行业提供高效率、高质量、多维度、场景化的数据服务与策略。
不同阶段对训练数据的差异化需求
从不同阶段的训练数据需求来看,企业应用人工智能算法要经历研发、训练和落地三个阶段,不同阶段对于训练数据服务也有差异化需求。
研发需求是新算法研发拓展时产生的数据需求,一般量级较大,初期多采用标准数据集产品训练,中后期则需要专业的训练数据定制采标服务;
训练需求是通过标注数据对已有算法的准确率等能力进行优化,是市场中的主要需求,以定制化服务为主,对算法的准确性有较高要求;
落地场景的业务需求中算法较为成熟,涉及的训练数据更贴合具体业务,如飞机保养中的涂料识别数据等,对于标注能力和供应商主动提出优化意见的服务意识有较强要求。
真正“有用”的AI模型,离不开训练数据
时至今日,人工智能从业公司的算法模型经过多年的打磨,基本达到阶段性成熟,随着AI行业商业化发展,更具有前瞻性的数据集产品和高定制化数据服务需求成为了主流, 可以说,真正“有用”的AI模型,离不开训练数据。
说回前文提到的以数据为中心的 AI 竞赛(Data-Centric AI competition).这次竞赛共有489个参赛个人和团队提交了2458个独特的数据集。仅仅通过改进数据(而不是模型架构,这是硬标准),许多参赛者能够将64.4%的基准性能提高20%以上,最佳性能组的获奖者的成绩在86.034%至86.405%之间。
这种限定框架内的巨大差别,足以说明在吴恩达等人的推动下以数据为中心(Data-centric)的AI进一步的系统化,并成为一个有具有巨大实用价值方法论。未来谁能够更好地挖掘和使用训练数据,就能在AI大潮中发现真正的“宝藏”。