实地探访河南AI村:给人工智能贴标的新“富士康工人”
周俊凯(Junkai Zhou,音译)的办公室坐落在东沙河的边缘,这是一条静谧的河,它把将位于中国中部河南省的31.8万人的小县城民权县新旧两个部分区分开来。在这里,19岁的周俊凯和他26岁的堂兄今年夏天一起创办了他们的小型数据贴标工厂。
他们创办的“俊鹏科技公司”办公室在一个租用的传统庭院住宅里面,是典型的河南农村。这栋房子很大,有两三层高,不像中国大城市普遍存在的公寓楼。在房子后面,一名男子在一片土地上耙叶子,周俊凯说,这些土地是一片庄稼地。
周俊凯(右)和他的表哥
在房子里面,唯一温暖的房间是办公室,十几个年轻人坐在宽大的发光屏幕前。在11月的某一天,屏幕和荧光灯几乎不能照亮房间,当地污染程度已经阻挡了太阳,四处弥漫着浓雾。
“俊鹏科技公司”的员工
这些年轻人是“数据贴标人”,他们每天坐在电脑前八小时,点击几十张照片,概述背景、前景和特定物品,所有这些都是根据正在进行人工智能的客户规格而定。有些人可能会标记医疗扫描图片,有些人标注风景和树木的照片,还有些人标注无人驾驶车辆的道路图片。这些都是人工智能算法学习“看”的数据。
人工智能行业依赖于这种廉价的人工,因为算法和“机器学习”在很多情况下都是由真人训练。
人工智能需要大量数据来学习和辨别模式,无论是图片、音频还是文本,因为它们不同于人类解释媒体。要教授算法如何准确识别苹果是一个苹果,它需要成千上万的苹果图片。此外,算法很容易上当受骗。在一项实验中,安全研究人员发现,通过扭曲校车图片,尽管人眼看不到这种变化,但人工智能系统再也无法识别它是一辆校车。
资金流入中国的人工智能产业,很少有地方比河南更好。在几年前河南富士康工厂(生产苹果产品)和电子工厂而闻名,现在,河南的城镇现在拥有办公室工作人员,他们正在进行艰苦乏味的输入工作,让计算机变得聪明。
咨询公司AIB的研究显示,去年,风险资本家向中国的人工智能创业公司投入了50亿美元,这使得该行业的资金首次超过美国。中国政府已将AI领域作为优先事项,并在去年夏天宣布一项雄心勃勃的政策:到2030年建设价值1500亿美元的AI产业。
在推动中国经济发展的制造工厂中,河南人民也发现自己拥有不断增长的劳动密集型数据标签公司这种边缘产业,这些公司为算法提供和处理大量数据。除了中国最大城市有几家大型企业外,这些数据标注公司主要分布在较小的城市、城镇和农村地区。
周俊凯是在平顶山西部的镇上看到一些类似数据工厂后,想到了自己开店。他的表兄弟们一起拿出家里多年的积蓄(45000美元),购买了几十台电脑并租用办公室。据他们所知,他们是民权县中唯一的做这个产业的人。
“你不能指望拥有这么高工资的人来完成这项劳动密集型工作”
从贸易学院毕业后,周俊凯开始进入这一行,之前他一直在找工作,但却处处受限。
19岁的周俊凯来自河南民权县的一个村庄里。 他说,从贸易学院毕业后,他的工作选择并不多。
“如果你不知道将来做什么,你可以去一个大城市,成为一名白领工作者,然后每天都要挤地铁挤公交,”他说,“至于其他(领域),如果你想出人头地,就需要大量的知识、经验和教育。而这些是我们没有的东西。“
他很难才找到了一份汽车修理工的工作。他说,在一家工厂干了很短时间就辞职了——那份工作太苦了,要一天工作14个小时。
“我以为我再也受不了(这些),”他说,但“现在从事的这个行业感觉它有潜力。”
韩金浩(Jinhao Han,音译)说,许多人现在正涌向数据标注行业。一年多前,他在河南省省会郑州开办了他的数据标注公司Dianwokeji(点我科技),目前拥有了100多名数据贴标机。
“虽然标注是相当低级别的工作,但进入门槛相对较低,而且仍属于人工智能行业。”他说,“所以我们认为,如果我们可以从这里开始,然后慢慢地、一步一步地走向更高价值的东西。”
韩拥有超过6000种数据标注装备,这些装备已经在他建立的类似Craigslist的平台上注册,其中较小的装备可以找到外包或雇用新员工。
18岁的赵梦瑶(Zhao Mengyao,音译)是个新手。她于今年10月开始在周所在的公司工作。当我访问办公室时,她正在追踪停车场停车位的白线:画面扭曲,线条弯曲,好像相机的一个鱼眼镜头,但她轻松地将鼠标放置在它们上面。20分钟后,赵梦瑶继续处理她下一张照片。这是停车场的另一个角度的照片。
年轻姑娘正在学习如何给汽车标注
在她旁边,一个年轻人则在描出一位歌手穿着的橙色连衣裙的蓬松边缘。接下来,他开始描一个打高尔夫球的人的轮廓。
赵梦瑶曾经是一个婚礼摄影工作室的化妆师,但因为工作疲惫而辞职。有几天她必须在凌晨4点起来准备客户拍摄,而晚上7点才能回家。
而现在的工作节奏她很满意:朝八晚六,中间休息一个半小时。在午休时间,她和她的同事还能聊聊天,聊聊共同玩的游戏。
她说:“我觉得这很不错,这里很自由。”
赵说工资还可以:每处理一套照片(大概20张)就能获得大概20元的报酬。她每天可以完成4到8套,即80到160张照片。当我问她认为照片会去哪里、有何用途时,她回答不知道。
我交谈过的七位数据贴标者的月工资从2000元人民币到4000元人民币不等。这与中国工人的平均可支配收入或税后收入相当——2017年为2164元人民币。“郑州有这么多可以获得这种水平工资的工作。”25岁的点我科技员工王玉双(Yushuang Wang,音译)说。
点我科技大多数员工都只有20岁出头。
AI照片识别教学的标准是使用ImageNet的图像,这是一个由斯坦福大学教授李飞飞和她的团队创建的超过1400万张图像的数据库。该数据库依赖于亚马逊的Mechanical Turk,后者将劳动密集型工作外包,例如照片标记的工作以几美分/一张的报酬交给互联网用户去做。
但是,随着世界各地的企业越来越多地转向从无人驾驶汽车到医疗诊断等行业的人工智能应用,ImageNet和Mechanical Turk被证明是不够用的。
你认为我们会让没有生命的东西控制人类吗?
数据标注公司Awakening Vector的创始人Peter Yang说:“医疗业务需要非常细致的数据来让人工智能学会如何做出区别,例如在CT扫描中区别肿瘤和眼球。”它需要在大量不同的照片中,通过数据来指出照片中的肿瘤是什么样子,这就需要人工的来点击并标注图片。
“但大多数人工智能初创企业只有少数全职员工,通常都是数据科学家。”
“这需要大量的体力劳动。你不能指望收入这么高的人做这种劳动密集型的工作,所以你必须把这项工作外包出去。”
此外,还有隐私和质量控制问题。
例如,医学图像需要保密。亚马逊土耳其机器人(Amazon Mechanical Turk)的任务是由任何想赚外快的注册用户来完成的,而不是那些周一到周五都有固定工资的员工。
外包意味着这些业务现在在国内遍地开花。
Peter Yang的业务集中于新疆,客户包括百度和跨国制药公司诺华(Novartis)。韩金浩的公司为国内一些无人驾驶汽车初创公司服务,在河南和邻近的山东省的一些小城市也设有分支机构。
传统观点认为,随着技术的进步,那些“低技能”的工作者将会失业。学术研究大多也支持这一观点。
但这并不意味着科技必然会取代所有的工作岗位。
波士顿大学科技与政策研究项目的执行主任James Bessen说:“历史研究表明,自动化带来了就业热潮。”
“以纺织业为例,在19世纪早期,由于布料太昂贵,大多数人只有一套衣服。但随着科技的发展,一些任务变得自动化,降低了制作衣服的成本,人们对布料的需求也在增长。服装需求的增长带来了更多的就业机会。尽管纺织业被认为是“低技能”的行业,但随着规模的急剧扩张,它也带来了新一代的工人,他们不得不学习操作复杂的机械。只有当需求得到满足时,就业人数才开始下降。”
就目前而言,我国的劳动力还算是廉价的。
这项工作也超越了图片标注的范畴。许多公司还为语音识别、视频标签甚至原始数据付费。
对于一些工人来说,成为一个新行业的一份子有一种明显的自豪感。
“我们正在做一些非常基础的工作,虽然只是帮助机器人学习和查看大量数据,但我们也是其中非常重要的一部分。”
那么如果有一天算法学会了自己识别事物,那么数以万计的“低技能”人工智能人才会失业吗?
韩金浩似乎对此漠不关心:“如果真的到了那个阶段,那么人类可能就不会活着了。你认为人类会让甚至没有生命的东西控制人类吗?我们只会教它如何为人类服务。我们不会把他教得那么好以至于有一天我们要为机器服务。”