数据标注师:站在了人工智能风口,却为5K月薪挣扎?
数据标注师:站在了人工智能风口,却为5K月薪挣扎?
懂懂笔记
· 刚刚
他们刚踏上了人工智能的列车,却已经驶向一个模糊的未来。
图片来源@视觉中国
文 | 懂懂笔记
上个月,特斯拉首席执行官马斯克表示,将在明年推出“Tesla Bot”人形机器人原型,以从事人们不喜欢做的危险、重复性或枯燥的工作。该计划一经发布便引起了广泛讨论,国外媒体的焦点,放在了安全性上。而在国内,隐藏在人工智能产业链中一群人“小人物”却开始浮出水面,并被舆论聚焦。
他们是AI行业的赋能者,是人工智能背后的“人工”。在AI繁荣的背后,有亿兆级的数据信息,在流水作业中,这些数据最终都会传递到名为“标注师们”的电脑前,被他们手动去“智能化”。
他们扮演了“老师”的角色——手把手地传授现实世界中的表情和动作,然后等着AI这位“学生”成长、离开,或许有一天这些“AI学生”将取代“老师”的位置。如今,随着数据标注行业迭代升级,这些数据标注师或许很快就会离开舞台……
入行、扎根
上海一座创意园区内,主管员刘梦缘(化名)正坐在自己的小隔间里,等着手下的标注师们发来成型的文档。
外面的工位上坐满了员工,他们一个个都把脑袋凑近屏幕,脖子还向前探着。其中的一位员工正在做着“描点标注”,将视频按帧截取并放大,细致对脸部特征、骨骼弯曲点进行标注,由于截取的画面像素低,大部分员工总是习惯性地一边滑动鼠标滚轮一边叹气。
员工们操作的“描点标注”是人脸识别前重要的步骤之一,除去“描点标注”,还有分类标注、标框标注等。AI不是生来就能识别人的眼耳口鼻,它需要通过标注师绘制的人脸关键点,来建立对五官轮廓的认知。在此基础上,AI才可通过这些点构成的轮廓特征,完成一系列识别工作。
当你“刷脸”解锁手机、完成支付,当你进入火车站,检票设备扫描面部时,都是在使用人脸识别的技术。而助力这项技术的,正是数据标注师们。
在刘梦缘所在的公司,标注师们用细密、起伏的鼠标点击声制造出成千上万个关键点。这项工作很“初级”,却也很艰难,刘梦缘在屋里偶尔会出来看一眼,然后见怪不怪地回到隔间,“我以前也是这么过来的,正常。”
她是从2018年入行的,从机械地录入(数据清洗)工开始,几个月后才正式接触数据标注工作。她的第一个任务是给图像中的人物打标签:年龄、性别、人种、头发、表情等,以供AI学习。而在见识了海量人物标签后,AI就像炼就了火眼金睛,“一眼”认出人的特征来。
“当时税后5千多的工资,主要是门槛不高,其实说到底就是互联网民工的角色吧”。当时的刘梦缘大专毕业后几次应聘都不顺,灰心丧气之际她与“标注师”不期而遇,女生特有的细心和韧劲让她一路坚持下来,直到现在。
也正是在刘梦缘入行的2018年,数据标注公司的风口来临。根据前瞻产业研究院统计,2017年数据标注相关融资事件达到9起,到2021年4月,共有18家公司获得融资,投融资事件39起。
来源:前瞻产业研究院
跟着这一波潮流发展的是,许多数据服务公司也作为乙方进入到日益扩大的市场,为百度、阿里等大型互联网公司,以及部分AI独角兽企业提供服务。
图片来源:人社部
2020年4月26日,人力资源与社会保障部发文正式宣布,“人工智能训练师”正式成为新职业,并纳入国家职业分类目录。预计到2022年,国内外相关从业人员有望达到500万。
行业向上,但“老师”们依旧用密集、艰辛的劳动辅助AI一步步走向成熟。光鲜的AI科技发布会在台前风光无限,可标注师们的生活似乎变得有些困难了。
“说是没技术含量,精度要求在那里,很容易犯错,”刘梦缘看着现在的手下的员工说道。每张图片要标记的点位繁杂,稍有偏离就会产生错误。一张图有错,会影响到整个数据包数据,然后就是“回炉重造”。
除了精度,疲倦是标注师最大的敌人。“这行干久了之后,我清楚地知道客户要通过我们实现什么——就是把人脑当电脑用”,刘梦缘笑着说道。
大公司会用软件监控标注师的疲劳程度,也算是一种人性化的体现,“但小公司本来就是接人家剩下来的活,时间紧任务急,只能拼着命熬,”正是如此,刘梦缘的团队里常年备着成箱的红牛和西洋参含片。
AI快速发展的背后,一批批“老师”换血,流动率相当高。“做文本标注的人员,现在越来越少,图像标注的30%的流动率,语音、视频常年都是对半开。而且现在的95后、00后愿意做的人少了,一般呆过三个月就不愿意继续干了”。
3年时间过去了,刘梦缘不断和老同事告别。但她从枯燥无味的工作中坚持了下来,她记不得自己标注了多少图,只觉得自己是踏上了人工智能的大潮。
对那些新晋的员工,刘梦缘也是如此描述,“我们是走在智能时代前面的一群人”。
巨头来了
行业的分水岭出现在2019年初:几大互联网巨头纷纷意识到数据的重要性,并着手建立自己的“数据工厂”。
据媒体报道,截至今年3月,百度山西人工智能数据产业基地中,就拥有超过3000位标注师,主要涉及自动驾驶、人脸识别等内容标注,其中86%的员工为90后;字节跳动在北京、天津、济南、武汉各地,也招募了4万名数据标注师;腾讯更是直接把平台放到了线上,让标注师变成了一种“全民兼职”,称为“众包”。
巨头的加入一方面是为了市场和成本,另一方面也是出于数据安全考虑,所以在内部搭建专门的标注团队显然是一个好选择。但是,“模型的训练和数据需求是周期性的,任务不持续,今天有活、明天没活,人员容易流失,管理成本很高”,刘梦缘能理解大厂摆出“众包”的原因,“我让手下的人去试过平台的兼职标注,单个标注几分钱,一个月的收入在2000元左右,比起让外包来做,省了一半还多。”
“大厂出手之后,市场最后拼的就是成本”,那段时间刘梦缘所在公司业绩下滑了40%,而且做出的标注数据质量也差很多。
图片来源:Boss直聘
据懂懂笔记了解,2018-2020年数据标注师行业平均薪资为5000-6000元,如果晋升为项目主管或者更高级别的项目总监后,月薪才能向5位数靠拢。而这一薪资标准到了2021年, 在一些求生的外包“小厂”内,不升反降。
图片来源:职友集
巨头涌入,薪资缩水的“大趋势”下,能窥探出标注师行业的“小趋势”:许多数据标注就像被人精心种下的水稻,还未到秋收季节稻穗就掉进了土里。
年初,刘梦缘单独接了一个“私单”,赚了2万元。
那是一个大厂“丢”出来的单子,做无人驾驶的数据标注工作,由于公司手头上的人员都扑在另一个项目上,她拉了之前的一些老同事和10个兼职学生,干了个“包工头”的活。
已经快1年没有亲自上阵标注文件的刘梦缘,只能硬着头皮和所有人一样移着鼠标,头顶、脖子、肘部、手腕、膝盖……都要一个个地标出来。整整一周,一群人完成了几万个点位的标注——他们看似在科技的潮头,干的却是苦力活。
本以为这单生意之后,可以继续接小单,可好景不长。“4月份开始,很多新团队出现,压价特别狠,原来是标注的报价按毛算,现在报价单上都出现几分钱了”。
数据标注行业有一套分工流程:巨头把任务交给中游的数据标注公司,再由中游包给下游的小公司、小作坊,有的小作坊还会进一步众包给“散户”:比如兼职学生。一单生意几经转手,就造成了行业众包中介层叠越来越严重,利润所剩无几。
“AI 肯定是未来的大趋势,但我们这些小公司很迷茫,听说很多公司都不干了。”刘梦缘本想着“私单”做得差不多了之后就出来单干,可这样的行业情况下,她能感受到的只有压力。
困境、挣扎
尽管目前的情况不乐观,刘梦缘依旧相信,数据标注行业最终会大浪淘沙,而他们,是走到最后的那一批。
从好的局面来看,下游市场陷入混战的同时,上游的 AI 市场从未停止过发展,AI正在成为人们进入这个社会的“入口”,这让刘梦缘和其他从业者们感到充满希望。
但行业也显露出严峻的一面,数据标注在迭代:大模型慢慢替代标注师,一些门槛更高、学科更细分的领域正露出头角。比如,医疗健康领域需要对病理切片等进行标注,以腰椎间盘突出的 CT 片为例,标注员必须准确识别并标注出间盘的轮廓。不过,很多医疗专家并没有时间和精力做数据标注,而这类工作又是普通的标注师无法胜任的,通常需要请医生或医学院的学生来做,结果就是成本居高不下,这些专业人员的成本是普通标注员的10倍。
像刘梦缘之前那样手把手教人工智能学习的方式,被称为“有监督”的机器学习。但当人工智能被逐渐成熟,它自身的识别能力与模型拟合准确度将不断提高,进入人机协作模式。直至人工智能会在模型的注准确度与效率上完全超过人类,此时它便要离开人工标注,进入无监督机器学习。
理论上说,每一个垂直场景随着技术发展,人工智能都有可能进入无监督学习状态。AI的核心在于预测,AI的下一个变革是无监督学习、常识学习。也就是说,“老师”们正在努力让 AI 不依赖人类训练,自己去观察世界是如何运转的,并学会预测,最终AI要甩掉“老师”。
但刘梦缘并没有很强的危机感:“我带领我们的人在做一件最有意义的事,在将每一个个体的智慧转化为 AI。我能保证,如果未来 AI 取代人类,他们也会是最后一批被取代的。”
为什么是最后一批?“因为总会有一个新的行业需要引入 AI ,需要我们(标注师)为他们来做数据准备。”
刘梦缘一直认为:“最大的一块市场是审核”。随着 AI 技术的发展,早年一些基本的标注工作正被逐渐被淘汰。以自动驾驶模型为例:以前靠人工来识别车、行人,如今则是由机器先标出来,然后人再去检查标注是否正确。
她考虑过自己的职业规划:“非常想进大厂,可是简历不够漂亮,门槛都迈不进去”。
互联网大厂对于数据的重视,最直接的反应就是薪资,尤其是管理岗,优厚的薪资福利让很多人都羡慕不已,刘梦缘也是其中一员。除此之外,她还考虑过自己单干去开个小公司,然后以被收购的方式进入大厂的管理体系。
“不过,那都是非常遥远的未来,还是抓紧现在吧。”如今,刘梦缘已经升级为公司主管,名片上的职位是数据总监。她也不再像刚入职时那样累了,“每天工作结束,累得不行,还要在内部对比谁今天完成的任务多。”
当然,角色的转换之后刘梦缘会思考更多,“或许下一个风口明年就来,又或者……”她也有些语塞。
在科技急速发展的年代,各类人工智能的应用如雨后春笋一般闪现,随之而来的是职场的多变。刘梦缘现在能依靠的,就是自己在“教学”生涯中的经验,至于那些新入行的标注师们,他们刚踏上了人工智能的列车,却已经驶向一个模糊的未来。
1050篇资讯
972关注
懂懂笔记
这个人很懒,还没有个人签名。
最近资讯
- 数据标注师:站在了人工智能风口,却为5K月薪挣扎?
- 李子柒事件“余震”:网红纷纷翻合同,IP究竟是谁的?
- “十三香”预售秒光,黄牛们又赢了一次?
本文观点仅代表作者本人,钛媒体平台仅对用户提供信息及决策参考,本文不构成投资建议。
想和千万钛媒体用户分享你的新奇观点和发现,点击这里投稿 。创业或融资寻求报道,点击这里。
敬原创,有钛度,得赞赏
-
hSmXxU 赞赏了
娱乐圈打工人,在边缘进出无门
约2天以前 -
大山之子 赞赏了
2021中国餐饮营销力白皮书:企业营销的六大变化、...
约6天以前 -
钛粉66527 赞赏了
透视防弹少年团的成功秘籍,国内偶像团体能学到什么?
2021-09-19 16:02 -
钛粉45063 赞赏了
无声的陪伴,也是一门大生意
2021-09-18 09:19 -
大山之子 赞赏了
求变的名创优品,还能怎么变?
2021-09-17 11:28 -
钛粉40333 赞赏了
“声音经济”不赚钱?喜马拉雅2.6亿月活换回20亿...
2021-09-15 19:55 -
钛粉69801 赞赏了
为了不让你被骗,公安部的国家反诈中心App操碎了心
2021-09-12 13:43 -
蒙MYH 赞赏了
比亚迪不是中国特斯拉
2021-09-09 14:23 -
钛粉28351 赞赏了
迎接中国的“波普”时代
2021-09-06 16:58 -
钛粉54471 赞赏了
靠PDF Reader成名之后,这家工具垂类公司如...
2021-09-04 17:06 -
钛粉12200 赞赏了
交易所“三胎”面世,北交所带来哪些重大机遇?
2021-09-03 18:25 -
钛粉14013 赞赏了
交易所“三胎”面世,北交所带来哪些重大机遇?
2021-09-03 16:24 -
钛粉02992 赞赏了
什么才是真正安全的“辅助自动驾驶”?
2021-08-23 11:26 -
宗旭 赞赏了
与华为分手、且长期亏损,AI芯片撑不起寒武纪千亿市...
2021-08-20 11:55 -
subey 赞赏了
抑郁症患者:深渊之中的自救
2021-08-13 23:55 -
hriyWn 赞赏了
5G时代系列谈:(四)应用之囿
2021-08-09 21:01 -
subey 赞赏了
互联网精神,不止崩于酒局
2021-08-09 08:42 -
钛粉49477 赞赏了
“中国需要什么样的资本”——一位投资人的反思
2021-08-06 09:50 -
hB9jMz 赞赏了
一个SaaS和物联网的新物种实践(下)
2021-08-03 10:51 -
钛粉54886 赞赏了
转型内容平台,迷你创想如何激励用户内容创作?
2021-08-01 12:50 -
钛粉07496 赞赏了
艺术家尹朝阳:NFT是一种新的交流方式,它可能代表...
2021-07-30 21:35 -
钛粉47967 赞赏了
安防厂商竞争加剧:华为份额不断提升,海康威视地位将...
2021-07-25 18:58 -
钛粉11165 赞赏了
教育「双减」政策正解,都在教育部「答记者问」里了
2021-07-25 12:43 -
钛粉26647 赞赏了
拿什么来拯救低迷的暑期档?
2021-07-22 20:43 -
钛粉55081 赞赏了
柴米油盐之上的柯文思 | 钛度专访
2021-07-22 17:09 -
钛a61422 赞赏了
云计算的牌局上,出局的巨头们不愿退场
2021-07-18 19:32 -
钛粉82019 赞赏了
致命的宠物托运
2021-07-16 10:56 -
钛粉30083 赞赏了
夫妻店,做汽车配件批发,能不能上云?
2021-07-13 09:58 -
钛粉13874 赞赏了
“深喉”发声,复盘社区团购死亡之路
2021-07-09 16:50 -
钛粉91954 赞赏了
“深喉”发声,复盘社区团购死亡之路
2021-07-09 16:46 -
hYrSeb 赞赏了
谁说电脑已死?
2021-07-01 18:18 -
subey 赞赏了
90后女程序员:身在大厂,心系创业
2021-06-11 13:24 -
钛粉27544 赞赏了
鸿蒙成败,在于生态
2021-06-08 17:41 -
钛粉22420 赞赏了
涿州楼盘停工下,被“不交房”拖住的生活 | 钛媒体...
2021-05-11 21:08 -
钛粉71674 赞赏了
台积电南京扩产惹争议:28纳米芯片制造“黄金线”之...
2021-05-11 16:16 -
钛粉25859 赞赏了
360被曝入局造车,周鸿祎看重了智能汽车哪块蛋糕?
2021-04-28 13:32 -
钛粉15018 赞赏了
新消费品牌如何“爆款中国”?
2021-04-26 12:08 -
钛粉46336 赞赏了
万字深扒“极端女拳”组织,谁在互联网上“引战”?
2021-04-26 01:00 -
钛粉65387 赞赏了
马云投资和自产的媒体,究竟在阿里生态中扮演着何种角...
2021-04-23 20:57 -
钛粉46198 赞赏了
万字深扒“极端女拳”组织,谁在互联网上“引战”?
2021-04-22 17:36 -
钛粉46653 赞赏了
万字深扒“极端女拳”组织,谁在互联网上“引战”?
2021-04-22 09:16 -
乔邦主 赞赏了
“异常流量”是互联网广告行业顽疾?秒针认为智能技术...
2021-04-16 21:10 -
钛粉54090 赞赏了
涨价拯救腾讯视频?
2021-04-11 20:53 -
钛粉38514 赞赏了
k12公司学霸君被传“倒闭”,创始人回应:在继续努...
2021-04-03 15:51 -
钛粉80481 赞赏了
女仆桌游馆:兼职半年,她陪伴过300多个孤独的人 ...
2021-04-03 07:49 -
钛粉38730 赞赏了
教育创业还有什么机会?
2021-03-29 14:21 -
钛粉38440 赞赏了
“超级App工厂”:教育赛道探索,进度如何?
2021-03-29 14:19 -
钛粉38714 赞赏了
k12公司学霸君被传“倒闭”,创始人回应:在继续努...
2021-03-29 14:17 -
hSmXxU 赞赏了
如果格局决定了人生,那到底什么决定了格局?
2021-03-26 12:02 -
钛粉03456 赞赏了
荣耀何时可以铸就属于自己的荣耀?
2021-03-26 10:25 - 查看精彩文章,打开钛媒体客户端
挺钛度,加点码!
- ¥ 5
- ¥ 10
- ¥ 20
- ¥ 50
- ¥ 100
支付方式
支付
支付金额:¥6
赞赏金额:¥ 6
赞赏时间:2020.02.11 17:32
账户【未登录】提示!
个人中心将无法记录并同步您的赞赏记录,
是否进行登录
分享文章
Oh! no
您是否确认要删除该条评论吗?
猜你感兴趣
分享文章