数据标注员正在被大厂抛弃

虎嗅网  •  扫码分享
我是创始人李岩:很抱歉!给自己产品做个广告,点击进来看看。  

一、苹果将关闭 121 人的 AI 标注团队


据彭博社 1 月 14 日报道,据知情人士透露,苹果公司将关闭圣地亚哥一个与人工智能业务相关的 121 人团队,这将导致许多员工面临被解雇的风险。


据悉,该团队在中国、印度、爱尔兰和西班牙设有办事处,负责通过听取对语音服务 Siri 发出的询问,并确定 Siri 是否准确地听到和处理问题来对其进行改进。位于圣地亚哥的团队成员专注改善用户以希伯来语、英语、西班牙语、葡萄牙语、阿拉伯语、法语等使用 Siri 的情况。


知情人士称,这个名为“数据操作标注”的团队上周三被告知,他们将搬迁至奥斯汀,与在得克萨斯州的同一团队合并。对于愿意在 6 月底前搬到奥斯汀的团队成员,可以保留自己的工作职位,苹果也将提供 7000 美元搬家补助。至于选择从苹果离职的人,则可获得至少四周遣散费以及六个月健康保险,原本工作职位会被取消。


苹果发言人证实了公司的这一决定,称公司将把美国当地的“数据操作标注”团队聚集到奥斯汀园区,团队大多数人现在已经在这个园区工作。她补充说,“目前在职的每个人都有机会到奥斯汀继续在苹果的工作。”


但对圣地亚哥的团队成员而言,苹果这一决定令他们讶异。知情人士称,该团队一直在苹果租用的办公室工作,原本将在一月底搬到苹果总部,现在被迫搬到奥斯汀,大多数受影响的员工并不愿意搬到这么远的地方。


苹果告诉这些员工,必须在二月底之前决定是否前往奥斯汀,如果不愿意这么做,会在 4 月 26 日遭到解雇。虽然苹果称他们可以申请转调其他职位,但部分员工认为他们不具工程背景,内部转岗机会恐怕不多。


二、AI 数据标注员正逐步向人力成本更低的城市渗透


数据标注主要是针对语音、图像、文本等进行标注,主要通过做标记、标重点、打标签、框对象、做注释等方式对数据集作出标注,再将这些数据集给机器训练和学习。数据标注的类型主要有:拼音标注、韵律标注、词性标注、音素时间点标注、语音转写、分类标注、打点标注、标框标注、区域标注等等。


在数据标注行业流行着一句话,“有多少智能,就有多少人工”。由于需要标注的数据规模庞大且成本较高,一些互联网巨头及一些 AI 公司很少自己设有标注团队,大多交给第三方数据服务公司或者数据标注团队来做。


在 2019 年以前,苹果公司的“数据操作标注”团队主要由外部承包商组成,后来考虑到隐私安全等问题,苹果解雇了承包商,改由全职员工替代。该团队少数员工已经开始协助苹果采用大型语言模型,这些人正在检查 Siri 潜在问题。


有评论认为,苹果公司选择将 AI 数据标注团队搬迁至奥斯汀,或许与当地的人力成本有关。奥斯汀数据注释服务公司 Alegion 客户成功总监丹尼尔·凯林曾表示,“整个数据标注行业竞争非常激烈,每个公司都想在世界其他地方找到更便宜的劳动力。”


比如,众包平台 Mechanical Turk 上的 20 万名 AI 数据标注员就分布在人力成本低廉的非洲和东南亚。印度甚至涌现了不少数据标注村,他们为美国、欧洲、澳洲和亚洲的 AI 公司服务,Facebook 就曾将部分社交内容标注的工作外包给了一家印度公司。而在中国,上百万名 AI 数据标注员分布在贵州、山西、山东、河南等省份的二三线城市,并逐步向人力成本更低的县城渗透。


三、薪资暴跌,也难逃被 AI 取代?


不少 AI 数据标注员表示,在前几年 AI 数据标注薪资还较为可观——至少与现在相比是这样。


据 Tech 星球报道,一位从事 AI 数据标注的消息者称,在 2017 年,单价高的时候,拉一个 2D 框就有 1 毛多,“我最高的时候干了 10 多个小时,一天就赚了 600 多元”。不过,这不是最高的,另一位标注人员称,早期 2D 拉框的价格最高能达到 5 毛钱。 (注:拉框是数据标注中常见的一种操作,标注员根据要求对图片中的物体,如车辆、红路灯、障碍物等画框标注。拉框分为 2D 和 3D,后者的价格会更贵一些。) 但这种热度并没有持续多少,现在标注一个图片的单价越来越低,最低的只有 4 分钱。


即便薪资暴跌,AI 数据标注员还是难逃被 AI 取代的命运——毕竟在 AI 面前,无论成本还是效率,人类可以说是毫无优势。


以 ChatGPT 为例,苏黎世大学研究发现,成本上,ChatGPT 平均每个标注成本低于 0.003 美元,比众包平台便宜 20 倍;效率上,在相关性、立场、主题等任务中,ChatGPT 也是以 4:1 的优势“碾压”人类。


来自卡耐基梅隆大学、耶鲁大学和加州大学伯克利分校的一组研究人员更是发现:GPT-4 在数据集标注表现上优于他们雇用的最熟练的众包员工。这一突破为研究人员节约了超过 50 万美元和 2 万个工时。


有评论认为,AI 数据标注员需要做好被 AI 取代的准备。目前在自动驾驶领域,已经有车企开始采用 AI 进行标注。


理想汽车董事长兼 CEO 李想曾在 2023 年 4 月份举行的一场论坛上表示,当理想汽车使用软件 2.0 的大模型,通过训练的方式进行自动化标定,过去需要用一年做的事情,基本上 3 个小时就能完成,效率是人的 1000 倍。


特斯拉也一直在积极推进自动标注的进展,从 2018 年至今,特斯拉的标注经历了 4 个阶段:


  • 第 1 阶段 (2018) :只有纯人工的 2 维的图像标注,效率非常低;


  • 第 2 阶段 (2019) :开始有 3D label,但是是单趟的人工的;


  • 第 3 阶段 (2020) :采用 BEV 空间进行标注,重投影的精度明显降低;


  • 第 4 阶段 (2021) :采用多趟重建去进行标注,精度、效率、拓扑关系都达到了极高的水准。


2022 年 6 月,特斯拉裁撤了 200 名为特斯拉标注视频以改进辅助系统的美国员工。目前,特斯拉的自动标注能力大幅改善,标注 10000 个不到 60 秒的视频,大模型只需要运行一周即可,而同样的工作量人工标注却需要几个月的时间。


但也有评论认为,当前 AI 完全取代人工标注还存在一定局限性。苏黎世大学政治学系政策分析教授、论文联合作者之一 Fabrizio Gilardi 表示,“当前认定 ChatGPT 能够取代人类工作者还为时过早。我们的论文只展示出 ChatGPT 在数据标注方面的潜力,但还需要更多研究才能充分探索 ChatGPT 在这一领域中的实际表现。”


参考链接:

https://www.bloomberg.com/news/articles/2024-01-14/apple-to-shutter-121-person-san-diego-ai-team-in-reorganization

https://www.infoq.cn/article/2hkNxGO1L0RamfzS6w0z


本文来自微信公众号: AI前线 (ID:ai-front) ,作者:凌敏

随意打赏

提交建议
微信扫一扫,分享给好友吧。