AI数据服务进化史:Testin有数的光荣与梦想之路
人工智能早在上世纪50年代就被提出,但是却在21世纪才被广泛使用于各行各业,这得益于大数据技术的诞生推动了人工智能的深度学习。随着大数据技术的应用及发展,使各行业的数据如泉涌一般产生,为人工智能奠定了坚实的数据基础,进而促进了人工智能应用兴起。
众所周知,人工智能是基于计算机对数据分析和深度学习的一种技术,但是只有数据对计算机来说是没用的,因为没有加上“标签”的数据,计算机难以进行深度学习和优化。于是,AI数据服务应运而生,并随着人工智能产业的迅速发展得以快速增长。
据艾瑞咨询最新报告显示,2018年中国人工智能基础数据服务市场规模为25.86亿元,其中数据资源定制服务占比86.2%,行业年复合增长率为23.5%,预计2025年市场规模将突破110亿元。由此可以看出,该行业整体发展较为稳健。但是,由于该行业处于成长期,所以我们仍需直面AI数据服务的行业难点。
AI数据服务诸多痛点亟待解决
随着 科技 技术不断更新迭代,企业变革的方向已由信息化向智能化发展,而在此过程中,如何获取数据成为最重要的痛点。
其实这个问题在行业转型中早已是一个普遍现象。时间追溯到智能化时代初期,企业争相加入信息化变革队伍中,此时 互联网 中已经积累了大量的数据信息,可供企业获取用以人工智能训练,但随后人们便意识到互联网上这些数据因为过于简单难以满足人工智能的发展速度,于是企业开始主动获取采集数据。
2005年起,以亚马逊的Mturk为代表的一种新的数据采集服务——众包模式席卷而来,这种众包模式当时在硅谷被大量的公司采用,最初被用于训练AI算法、发现假新闻、删除 社交 媒体 上的暴力内容等,后来在定量研究、市场调查等领域也有所应用。由于其低门槛、高效便捷的优点,一时间受到广大AI从业者及科研人员的喜爱,在国内也掀起了一场效仿热潮。
但是,人们对人工智能的依赖程度逐渐提升,对AI的要求也越来越高,自然对数据的质量及精准度也就更高,这给众包模式的数据服务商带来了巨大考验,同时也为AI数据服务行业带来了新的挑战和机遇。
2017年,北京云测信息技术有限公司(以下简称“云测”)成立了AI数据服务品牌——Testin有数(原云测数据),凭借云测多年来在互联网行业积累的丰富经验,同时不断扎实磨砺技术能力、打造品牌形象,Testin有数快速成长,跻身AI数据服务行业内头部队列。
那这样一家企业又是怎样解决上面提到的难题,又是如何不断创新,在行业发展之路上走在前列的呢?
AI数据服务如何实现“质”的飞跃
Testin有数总经理贾宇航认为要想攻克数据服务行业过去的种种难点,使数据服务呈场景化、精细化、质量化是必然趋势,而Testin有数则是通过提供定制化的数据采集、高精度的数据标注等服务模式来将问题一一解决的。
怎样实现数据采集定制化?精准化?
贾宇航说道,对于需要使用AI数据的公司来说,“成也数据,败也数据”已是一个既定的事实,这里的数据不仅指数量,更多的在于精度,能否实现精细化的数据采集和多维度的数据标注对AI数据使用者来说至关重要。
随着人们对交互式人工智能的青睐,人工智能的深度研发成为企业发展战略中的重要一笔。通常情况下,提高算法精度是人工智能进化的重要途径,因此对数据的精准度也提出了更高要求。
为提高数据的精准度,Testin有数依照客户需求定制化搭建了采集场景,为客户提供多场景多形式的高精度数据,满足不同企业对不同数据的需求。例如疲劳驾驶监测系统研发前期,驾驶员危险动作的数据收集较困难,针对这一问题,Testin有数通过搭建与之相对应的场景实验室,利用专业的人士到驾驶舱中模拟驾驶员疲劳驾驶的相关行为动作,例如打瞌睡、玩 手机 等危险行为,通过专业的设配获取精准的数据信息后,利用该组数据对人工智能进行培训,一个减少交通事故的预警系统便随之产生。
然而,在数据服务这一过程中,最重要的莫过于数据采集之后高精准的数据标注。没有精准的数据标注,那这些收集到的数据处于“死亡”状态,并没有激活,其价值并未体现。此时我们不得不提到“数据标注”这一职业。
过去,“数据标注”常被冠以“劳动力密集型”“无技术含量”的帽子,而在贾宇航看来并非如此,他认为“数据标注”现在已经成为一种“技能密集型”的行业,伴随着人工智能的快速发展,数据标注行业正在进行快速转型,“人工智能的老师”是他们的新名称,他们以数据标注为己任,为人工智能实现真正智能而努力,通过不断掌握丰富的行业知识、专业的职业技能及专业的工具的使用,做好每一项复杂的数据标注工作,使数据标注精准度从传统的95%要上升到99%,甚至更高,确保人工智能更智能。
例如在对车辆信息进行标注时,传统的数据标注只能确保人工智能准确识别出车型、车身颜色等95%的信息;或者有的企业需要研究道路设置的问题因此只需要道路上基础设施的数据,而有的企业做一个 汽车 行业的研究所以需要的是道路上所有经过的交通工具的数据,往往数据决定数据精准度的就是那容易被忽视到的5%,这5%需要专业的数据标注者才能完成。实现更高质量的数据标注,确保每一分数据都能助力人工智能产品实现快速落地也正是Testin有数所关注的。
人工智能的发展离不开数据的支撑,没有数据作为“燃料”,人工智能“举步维艰”。
过去的AI数据服务呈现的是并行模式,而现在逐渐形成了金字塔模式。Testin有数作为金字塔上方的数据服务商,有着自己的发展战略。贾宇航表示,AI数据服务是一个资金、人员、软硬件设施等 投资 均相对较高的行业,但是它又是人工智能产品落地的重要因素。
Testin有数一直以来聚焦在高还原、高精度、高质量的数据,致力于帮助企业探索发展边界。希望通过提供健康的数据,真正助力人工智能产业的稳健快速发展。
数据服务未来可期
人学习是举一反三,而人工智能学习是举三反一,这就意味着需要全面的、精准的数据以供人工智能学习、进步。2019年被称作5G元年,由于5G技术高速度、低延迟、低功耗等特点,将为数据服务带来新的变革。
5G+IoT为数据获取扫清了阻碍。物联网设备中产生的数据依赖网络传输,5G高速度、低延迟的特色可实现数据实时传输,并以多元化的形式获取数据,量和速度跟上了,数据的“质”也得到日益提升,助推数据服务行业实现巨大飞跃,从而进一步提升了人工智能的智能化水平,催生出更多的AI产品,实现5G技术推动整个AI数据服务行业发展,使整个行业更加繁荣。
然而,有人提出质疑:“AI公司获取数据的需求会不会随着科技技术的逐渐完善而下降”,贾宇航给出的答案是“不会”,他认为人们在享受人工智能带来的红利时,对其的期望值也会日渐增长,并不会发生数据需求封顶的情况。
例如智能手机在刚问世时便给人们带来了很大的便利,但当时人们并没有想到几年后的今天,智能手机、AI应用场景会给我们带来如此巨大的便利,AI的强大远不能以我们当前的视角去看待。AI会逐渐强大,其数据缺口会越来越大。
当前,Testin有数在AI数据服务的发展里程上刻下了浓墨重彩的一笔。在未来,随着数据需求会持续上升,会有更多的“AI+”,数据服务市场规模将不断扩大,AI数据服务行业将稳步向前发展!