数据驱动未来:AI大模型在多场景应用中的挑战与机遇
在人工智能概念爆发伊始,算法、算力、数据就是重要的三要素,进入落地阶段,智能交互、人脸识别、无人驾驶等应用成为最大的热门,AI 公司开始比拼技术与产业的结合能力,而数据作为 AI 算法的“燃料”,是实现这一能力的必要条件。因此,为机器学习算法训练、优化提供数据采集、标注等服务的人工智能基础数据服务成为这一人工智能热潮中必不可少的一环。
大模型时代的到来,正加速推动人工智能开发从以模型为中心朝着以数据为中心的方向转变。这使得数据标注的重要性更加凸显。相关机构根据国内需求方与供应方营收增长情况推算,预计2024年数据标注市场规模为130亿~180亿元,2025年市场规模为200亿~300亿元。
对于如何充分发挥AI数据对人工智能产业落地的价值,云测数据总经理贾宇航认为,一是加强场景化数据的能力,换言之就是为人工智能细分场景的落地,提供更加垂直且丰富的数据,满足其长尾场景的需求;二是提升数据标注的准确性,从工具、规则、流程的开发制定,到标注人员的素质培养,从细节提升数据标注准确性;三是充分发挥“底层技术+服务能力”的力量,具备更深刻的行业领域知识、更懂场景、更懂技术、更具行业前瞻性。
在贾宇航看来,未来,数据标注也会和人工智能技术一样,逐渐深入到各个行业及场景当中,呈现细分化、专业化的发展趋势。在这一过程中,对技术迭代将提出更高要求,不仅数据处理要做到足够专业,对行业特征和企业需求也要有深入了解。例如,在自动驾驶领域就包括了点云联合标注和时序标注的相关要求,这就需要一套强大的标注工具满足点云和不同维度数据融合处理的要求。
谈及面向大模型高质量数据需求,云测数据在相关层面有哪些优势布局时,贾宇航表示云测数据一直将数据质量作为AI数据服务的发展核心,不仅聚焦于技术研发优化,更是延伸至人才培养、产品服务等环节,为企业提供高质量的场景化的AI数据服务。业务层面通过数据采集、数据清洗、数据标注等方式为企业引入AI数据处理,以标准API接口支持数据导入和导出、支持已有算法预标注功能,可以提供多项AI数据产品应用和AI数据服务,跟任何的企业的数据库打通,完成原始数据到标注数据的快速积累,加速AI模型的开发进程。
作为人工智能的“燃料”,大量训练数据的训练支撑是AI算法的基础。训练数据越多、越完整、质量越高,模型推断的结论越可靠,因此一个AI模型从诞生到完善,直至应用于产品,再到 商业 化地落地,都需要大量数据的喂养。
尤其在大模型领域,大模型不是静态的,是不断学习的。因此,数据和算法就形成了“飞轮效应”,好数据越来越多、算法也会越来越先进;算法越有效果,使用者增加,数据反馈也会更多。随着人工智能的应用场景越来越多元化,需要处理多种模态的数据,例如文本、图像、语音等。未来,大模型将更加注重多模态的融合,以处理更加复杂的应用场景。