星尘数据,做人类智能与机器智能之间的罗塞塔石碑
制作于公元前196年的罗塞塔石碑(Rosetta Stone),刻有古埃及国王托勒密五世登基的诏书。
石碑上用古希腊文、古埃及象形文以及当时埃及平民使用的通俗体文字刻了同样的内容,这让考古学家解读出失传千余年的埃及象形文的意义与结构,找到读懂古埃及的密码。
△罗塞塔石碑
在AI领域,为了让机器读懂人类世界,同样有这么一块「罗塞塔石碑」——数据标注。它的存在让大规模训练数据的机器学习成为可能。
1
—
数据——新的石油
所谓数据标注,指的是 对未经处理的语音、图片、文本、视频等原始数据进行加工处理, 使其成为结构化数据让机器可识别的过程。
在以深度学习为主的感知模型中,主流的深度学习训练方法还是监督学习,用这种方法训练,需要向模型「喂」海量的数据,且数据需要是「真值(Ground Truth)」数据,这些数据就来自于数据标注。
目前火爆全网的ChatGPT,做出来的关键并不在于算法,方法论大家都知道,但「喂养」ChatGPT的「数据」并不公开,这里的「数据」包括数据的获得、清洗、分类、数据标签平衡、反馈、区分带噪音的数据等等,有很多细节。
从这不难看出,数据在AI发展过程中极为重要,业内甚至将数据称为「新的石油」来形容它作为将人类智能转化为机器智能原材料的重要性。
但放眼整个AI行业,数据的受关注度远没有AI三元素的的另外两个元素——算法和算力来得高。
造成这个结果的最主要原因就是因为数据标注行业是一个劳动密集型的产业,「足够廉价的劳动力」是数据标注公司的一大标签。在新疆、河南、山西等劳动力较为低廉的地区,形成了数据标注的产业集群。
这样的标签与站在台前的AI企业形成了强烈对比,自然很难得到重视。虽然国内数据标注规模化发展时间较早,但一直没有找到明确发展方向与定位。
直到美国数据标注企业Scale AI,用5年时间(2016-2021)实现超73亿美金的估值,国内数据标注行业才注入了一剂强心剂。
随后,随着特斯拉在2022 AI DAY上推出Auto Labelling标注平台,并推出4D标注技术,这让更多人知道了自动化标注的存在,也让更多专业的数据标注企业走到台前。
星尘数据就是其中一员。
2
—
从人力工厂到数据策略专家
曾经在大英博物馆看到过罗塞塔石碑的星尘数据创始人、CEO章磊,很快就联想到了自己所做的数据标注工作。因此,给星尘数据的标注平台取名为Rosetta。
3月1日,星尘数据Rosetta3.0平台正式上线。
△星尘数据创始人、CEO章磊
在交流过程中,章磊提出了标注行业认知天梯的概念,认为标注行业的 初级认知是「人力工厂」 ,服务商用相对初级的标注工具、项目管理和海量人力就能干活,这也是外界对数据标注行业较为普遍的认知画像。
但到了 中级认知,对项目管理的难度和标注工具的复杂度会有一定认知 ,投入工具研发和项目管理成本,研发周期长,管理难度大,数据迭代效率低;而 高级认知则更重视平台的技术实力 ,使用高度自动化的标注平台,且与数据服务商一起迭代数据闭环和数据策略。
在「高级认知」中,章磊特意强调了 数据策略 的重要性,这也是星尘数据的一项重要竞争力和产品,其中包括了数据增强、数据平衡、人机交互反馈、数据选择以及主观性数据处理。
传统的数据标注流程中,算法人员制定数据标注规则,标注公司消化后再提供给标注团队。然而,执行过程中,算法的思路并不能一次性达到最优;其次,数据标注人员仅仅是一个「干活儿的」角色,并不能帮助更好地迭代算法效果。此外,算法侧时常会有一些不合理的规则导致成本飙升或难度大增导致难以执行。这就使得即便数据量足够,也往往难以提高模型能力,成本还有所增加,完全是一种事倍功半的状态。
章磊认为,目前标注行业的供给是低于行业需求的。
“过去我们缺的是数据量,但现在不缺量,缺的是真正有价值的数据。所以行业正逐渐从一般性的数据采集变成了数据挖掘,从海量数据中大海捞针,这是当前行业的一个挑战。「数据策略」就是星尘应对挑战的策略,同时也是我们与其他公司最大的一个不同——我们的定位是 人工智能的数据策略专家。 ”
章磊表示, 数据策略中涉及大量前沿技术 ,既包括算法中和数据相关的技术,如领域迁移、时空融合、数据增强、弱监督学习等等,也包括以数据为中心的反馈迭代技术,如主动学习、强化学习、数据检索、Human-in-the-loop、数据安全、场景化数据生成、模型测试等。数据策略专家既要了解相关技术也要熟悉产品,以专业性来服务客户。
“一个典型的例子是,客户在感知算法中因为没有做运动补偿,需要对相机信号和雷达信号逐一进行人工确认。星尘的数据策略专家和算法沟通后,提出通过2DOD算法和3D映射联合计算,通过IoU筛选候选样本的方案,并将多个算法直接以人机交互的方式嵌入标注流程中,节省了50%以上的标注时间。” 章磊说明道。
3
—
打造数据标注界的Photoshop
目前企业在选择数据标注服务时,往往有以下几种模式:
首先是选择开源工具进行数据标注。但开源工具往往只是一个Demo产品,属于前端研发的小工具,缺乏用户数据加工流程的打磨,中后端产品功能弱。另外,对于技术和人员要求高、专业度强、规模大、自动化高的需求都无法满足。
同时,随着各类传感器和应用场景的不断丰富,自动驾驶所需标注的数据类型呈现多样化,开源工具很可能出现底层数据和底层架构不支持某种数据的情况。
第二种模式就是内部生产,这里还可以 细分出人力是否外包两种情况 。在不外包的前提下,内部标注团队人力成本较高,投入产出比很小。同时,由于不是收入部门,预算有限,技术迭代积极性就会较低,这将进一步拉低投入产出比,最终难以形成正向循环。所以我们看到京东、阿里、腾讯这些大厂都解散了标注部门。
而如果将人力外包,企业自己仅提供标注平台和标注工具,会由于缺乏管理工具和手段,经常会面临人工标注随意度高、数据非标、出错率高、返工率高等问题,同样难以及时且高效地满足需求。
正因为有了以上痛点,才有了星尘数据这样专业第三方数据标注企业的生存空间,
“但星尘不是要解决100%的数据标注,而是解决那部分难的、行业前沿的、大规模的数据标注,这也是那些具有付费能力的大客户最大的痛点。” 章磊说道。
作为解决客户痛点的重要标注工具,Rosetta3.0基本可以和Photoshop、Sketch这些耳熟能详的工具功能丰富程度、算法接入能力、交互等方面媲美。
上面这张图,展示了Rosetta3.0平台内部分4D重建点云,据章磊介绍,如果全部展示会有超过500万个点。而市面上常规对空间描绘能力的细节程度是在30万~80万个点左右。“同时,我们还可以做到最长达2000帧的标注,正常500帧没有任何压力的一个连续帧。也就是说一秒钟是10帧的话,星尘可以标一分钟的视频或者一分钟的3D空间数据量。而同行业大约在50帧左右,我们是超越友商一个数量级的标注处理能力。”
在最后总结星尘数据到底是个怎样的存在时,章磊说道:“我们是自带工具、材料、装修方案到客户家里帮忙装修。这种模式更加贴近中国的真实市场环境,首先数据是刚需,第二要处理数据必须要有金刚钻,第三我们还能帮你设计,帮你架构,和你一起探讨策略,最终以一整完整的服务和产品矩阵来共同完成这些事。”
这一套流程就是星尘数据的 数据闭环 。
据章磊介绍,星尘数据已经服务了50多家头部的车厂和自动驾驶公司,其数据闭环体系,用自动化的方式减少了60%以上的数据处理量,能够帮客户的算法迭代周期从三个月缩短到两周,客户每两周就可以更新一版模型。“我们能实时给客户反馈,用户也能实时把数据送标,基于我们的数据管理系统,客户从数据落盘(数据写入磁盘,自动驾驶领域主要指采集的数据从传感器到硬盘或云上的过程)到数据处理、数据标注、数据送检,到最后把数据‘喂’给算法,整个过程全部自动化” 。