AI发展自驱动,这家公司如何用AI成就人工智能里更智能的人工
2019年,人们再次谈起人工智能时,最常聊到的便是其如何应用。因为大家心里都清楚,人工智能要想服务于企业和社会,必须先从实验室中走出来,放下它那神秘高贵的外表,脚踏实地。
然而,就像半导体技术一样,在诞生之初,它没有得到产业的认可,主要是因为高昂的制作费用,一颗电晶体成本高达10美元,被戏称作实验室里的玩具。直到硅提纯、精密加工等技术的发展,才有了由杰克·基尔比所研发的现代集成电路,目前10美元可以买数千万甚至上亿颗电晶体。
人工智能的成本又由何组成呢?它不像芯片一样拥有明码标价的BOM,普遍认为其主要来自于研发人员及工程师的薪资和服务器维护,事实上这个想法不够全面。绝大多数企业所采取的人工智能技术名为机器学习,需要有脱敏的训练数据支撑才得以运行。哪怕是实现Hopfield,也需要远超想象的数据量,更何况是现如今那些拥有强鲁棒性的模型了。
数据采集标注看起来很简单,无非就是拍个照片标个点,但是真正要操作起来却根本不是那么一回事。首先要想在足够短的周期内采集到足够的数据量,必须要有足够的人手配置。假若要10万张人脸表情照片并且要有300个点需要标注,每人每天贡献20张合格的素材算是一个较为平均的水平,企业数据采集标注团队拥有50个人,那么完成这一单生意就需要100天的时长,也就是3个多月。
拿到数据后再去复审、训练,到最后功能上线,少说也要将近半年的时间。这显然对不上软件叠代更新的理念。再加上这些人员的培训组织运营成本等等,一笔合格的数据采集业务的交付可能高达几万甚至数十万元。这也是为什么会有一种观点表示,人工智能不仅不会替代劳动力,反而会增加就业。
在海外,率先察觉到由人工智能所催生的新一片蓝海——数据采集和数据标注,最早由Appen为代表,后来随着MightyAI、Scale这样的公司出现,逐渐走向稳定。这个爆发点大约是在2016年,诸如后者这样的公司,均是在2015、2016这两年间出现的。而就在最近,Scale AI创始人,华裔22岁青年Alexandr Wang宣布获得1亿美金C轮融资,公司估值超10亿美金,成为硅谷新晋独角兽。
反观国内,人工智能的浪潮其实要比国外更为汹涌,然而专业从事数据采集标注的公司发展却比较滞后。即便是有几家相关的公司,却多半为自营状态,和海外服务众多AI企业的平台模式截然相反。当然,谁都是吃客单生意的,不同并不代表做错了。
国内有一家公司名为龙猫数据,是国内首家以众包的形式运营采集标注业务的。众包形式的好处就在于人员调用足够充沛,相较于传统的员工制,众包形式更为灵活。同时,淡季的时候也不用支付员工薪资,减轻了运营成本。
但是众包形式的缺点在于用户管理,数据采集成员和龙猫之间并没有劳务合同,只有平台运营规范作为制约。龙猫数据因此采取了精细化管理的方式,对用户进行能力画像,将不同用户分配到多个不同环节,包括数据采集和标注、数据审查等等。
为了提高数据产出的质量与效率,配合龙猫数据的众包模式和精细化用户运营,龙猫数据采用了预标注工具和人机交叉数据验证这两种措施。前者是指,龙猫众包平台的AI工具会先对需要标注的数据进行预标注,然后再由标注人员对预标注结果进行微调;后者则指的是龙猫数据会对标注好的数据进行机器和人的双重交叉审核,加上合理数量的抽检,最终满足数据交付的要求。
借用众包的模式,从任务发布到数据交付,这样一个流程下来,即便是几十万数据规模的大单,短短一两周也就能搞定。
龙猫数据也有头疼的地方,他们有一个客户是全球非常知名的通信设备商。根据GDPR的规定,凡是消费到GDPR所保护地区的产品,必须要遵守相关规定。这也就使得龙猫在数据采集时也要合乎GDPR的标准。为此,龙猫招纳了深入了解GDPR的相关人士。
人工智能飞速发展为数据行业带来了大量不同的基础数据需求,龙猫数据的客单总体分为两类:采集标注过的数据和没有采集标注过的数据。已有的数据再次采集标注是一种资源浪费。于是龙猫数据推出了一项数据商城服务,即用户可直接在商城中购买已经存在的数据集,以便快速拿到数据。当然了,数据商城的数据在复售前都会与客户签订一定的协议,已保证龙猫数据依然合法享有这批数据的销售权。
类似于知识产权,数据在销售以后还是存在的,也就是说某一企业在购买数据后,它可以将其复制给其他公司。相当于多个企业只要买一份数据就能完成所有的训练了,在 经济 学的角度来讲,哪怕是购买方销售了一次数据,这对于龙猫数据来说都是一种损失。 区块链 或许是一种解决办法,不过当下,龙猫把注意力放在了另一件事上。
龙猫数据将自己目前的发展分为了三个层次,第一层次为龙猫1.0,即数据标注工具集合。1.0时期,龙猫开发了基于视觉、音频、文本这三大领域的标注工具,用于对数据进行手动处理,以服务于机器学习的训练。第二层为龙猫2.0,在这段时间里,龙猫开始从整体流程上对数据采集标注进行优化,实现了从接到需求到完成需求的全过程自动化管理,其中非常重要的一部分是对数据采集标注任务的细化拆分,将一个复杂的任务细化拆分成颗粒度极小的需求,极大提升了需求满足的时间。
2019年,龙猫数据进入了3.0时期,开发AI预标注工具。目前这种预标注工具主要应用在视觉层面,而音频和文本这两项业务应用较少。龙猫数据3.0所代表的是全面采用预标注技术和工具,能够让所有数据采集标注人员都能使用,从而提高效率,对于龙猫数据来说,这种工具的应用能够极大缩短交付周期。
龙猫数据3.0会持续一段时间,随后便进入4.0时期。在那个时期里,龙猫会全面采用自动化标注工具,用户只需要对采集数据和预标注结果进行微调,标注及审核、质检工作全面由人工智能所代替。只是这个道路还较为遥远,现在不好估量。
然而不难想象的是,未来的数据采集公司必须要通过工具和预标注来形成自己的技术壁垒。采集过程主要依靠人来完成,其规模和效率主要来自于市场运营和任务奖励,这也就意味着从采集到产出之间,劳动时间越短,成本也就越少,能够完成的客单数量也就越多。
从客户数量来看,龙猫现有约200家客户左右,基于众包形式的优势,这种数量级是合理的。毕竟从外部看,在质量合格的前提下,自然会选择产品周期最短,价格最便宜的公司。这种模式也造就了龙猫数据客户复购量大,核心客户客单价高的局面。
从内部看,龙猫数据的模式没有大幅度变更,反倒是流程发生了变化,最根本的原因还是在于工具的进化。同时,龙猫自3.0时期开始也不再是一家传统的数据采集标注公司,而是一家人工智能公司。
或许他们想要的是从数据基础服务到人工智能的发展转变,由单纯的AI数据服务延伸到细分领域整体AI落地。借助AI的力量,将人工智能里最需要人工的部分解放出来,成就人工智能领域最智能的人工。这是他们最擅长的,毕竟他们是人工智能领域的筑基者,他们也最明白如何用好AI这股强大的原生力量。
“只有退潮了才知道谁没穿裤衩。”这句话被人们说了无数次,最早能追溯到豆你玩、姜你军时期。无论是 VR 、O2O、人工智能都是一样的道理。
话又说回来了,数据采集标注作为人工智能的上游,它也需要人工智能开发能力,最终形成了一种闭环。未来会怎样,没人说得清楚,但是人工智能的未来绝对不是吹嘘自己的算法能有99%的补偿、能解决几百亿数据量求梯度,而是要从每一比特的数据开始积累,直至几十乃至几百ZB。