自动驾驶、人工智能全面开花, 高质量数据成首需
近年来,国家瞄准人工智能核心研究领域,制定出台了一系列发展政策。如2017年7月,国务院发布《新一代人工智能发展规划》,提出若干发展阶段目标;2019年3月,《关于促进人工智能和实体 经济 深度融合的指导意见》发布,提出构建数据驱动、人机协同、跨界融合、共创分享的智能经济形态。包括人工智能的重要落地方向——智能驾驶领域也是新政不断;2020年2月十一部委联合发布《智能 汽车 创新发展战略》,将智能汽车列入顶层发展规划,紧接着3月份自动驾驶分级标准也进行了公示......
数据对人工智能产业的良好发展的必要性
通过这些发展政策我们可以发现的是,人工智能正在成为数字经济的核心驱动力。作为国家“新型基础设施建设”之一的人工智能,已经运用在智慧城市、交通、家居、医疗、 金融 和教育等各个领域。但其实在目前阶段,人工智能落地亟需高质的数据来完成算法训练,数据越多、越精准,落地的AI应用也就越智能、越好用,可以说人工智能产业的发展离不开数据的支持。
提到AI数据,不得不提在AI数据质量方面拥有丰富交付经验的头部企业——云测数据。云测数据自建的数据标注基地和场景实验室,以及专职数据服务人员的规范化管理和硬实力的技术投入,是数据高质量交付的硬性保证;内部完善的数据作业协同流转体系,在保证数据质量的同时,可大幅提升数据作业的生产效率;文字、图片、音频、视频等全品类数据处理能力、独立第三方的身份和对数据隐私安全的严格把控,让众多 AI 企业和各个行业的龙头企业选择与云测数据保持着长期良好的合作关系。
垂直行业数据需求各有不同,高质量是共同点
以前文提到的智能驾驶举例,智能驾驶多应用于自动驾驶、自主泊车、智能驾舱等场景,云测数据为其提供多维度、多模态的数据服务。如在车内场景中涉及到疲劳监测、动作识别、场景光线等一切会在车内发生的场景,以及在车外环境中更复杂的障碍物、道路、天气、地点、车道线、路标,以及一些长尾场景诸如闯红灯车辆、横穿马路的行人、路边违章停靠的车辆等所有可能会涉及的场景数据,可实现连续帧标注、2D图像框选、图像分割、3D点云标注、2D3D融合标注等众多功能,。
再比如智能家居行业。智能家居多应用于智能 家电 、智能音箱、智能扫地机器人等场景,云测数据依托于丰富项目经验与优秀的行业理解,为智能家居企业提供全类型的数据标注数据采集服务。如语义分割、ASR语音转写,唤醒词/控制词、方言语料采集等等。
这其中,又涉及到AI技术中重要分支的自然语言处理(NLP),具体的 商业 化应用有:机器翻译、舆情监测、自动摘要、问答机器人、客服机器人、智能问诊等,云测数据为以上众多领域提供高质量的NLP数据支撑。在云测数据,以智能客服单个场景的意图标注,就分为10-20个大类,上百个子类,根据业务需求可能还会有进一步的标注细分。同时,云测数据除了对NLP数据进行对话意图、领域、槽位等进行判断和标注,还可以进行多角度的泛化。
量变到质变,数据是新基建的“基建”
其实,站在AI数据服务的发展历史角度看,AI对数据的要求也是伴随着不同发展阶段逐步提高。在AI商业化初期,AI算法对数据的精度要求不高,日常的AI训练首先要求数据量大,数据标注质量要求相对不那么严格。但是随着AI与各个产业结合得愈加紧密,企业开始从实际落地场景出发,高精度、高质量以及更多维度的数据,对现阶段AI产业化落地的至关重要。
经历了从量到质的改变,数据已成为引领人工智能发展的重要战略窗口,人工智能可以说是目前最火的新基建之一,而高质量数据就是人工智能基建的唯一和支撑AI产业化落地的基石。