首家支持 Google Lens 的博物馆快来了,但用 AI 取代人力还有点早
在 2017 年的 I/O 大会上,Google 发布了一款能识人又能识物的新产品:
你只需要对着别人的名片一扫,所有信息就能存进通讯录;
你只需要对着景物一扫,就能获得当前景物的所有信息;
当你在游览时,它还能担当你的随身翻译、导游 ……
更重要的是,这款产品打破了智能 手机 的档次局限,无论是高端旗舰还是低端入门,只要搭载的是智能系统,任何手机都能用得上它。
这个在当时有着神仙功能的新品,就是我们在往后两年 I/O 活动上都能看到的「Google Lens」,如今这个产品经过两年的发展,它已经成为识物工具中的佼佼者。
而随着今年 Google 在这款工具里加入 AR 和朗读功能后,有着 124 年历史的笛洋美术馆(de Young museum)也在近日宣布,将全面支持游客用 Google Lens 游览展馆。
这也是世界上第一家支持 Google Lens 的美术馆 / 博物馆。
▲ 图片来自:Artnews
在笛洋美术馆内,游客可以通过 Google Lens 对展品进行识别,系统在进行识别后会推送当前作品的作者、历史等相关信息,用户可以在馆内通过这个功能自由获取想了解的内容。
而且更有意思的是,除了对作品进行识别外,游客还可以通过 Google Lens 对特定物品进行识别,识别成功后系统会播放作品相关的 AR 图像或视频内容。
通过这种方式,用户能获得面前这幅作品以外的信息,譬如让作者在视频中介绍当前作品的创作经历等,让游客通过具象且优雅的方式获得知识内容,就像和艺术家面对面交流一样。
不过,AI 识物能在未来取代传统人力向导成为游客获得新知识的主要途径吗?我认为这个想法是不错,但现在说似乎还有点早。
强大的 AI 人工智能让 Google Lens 成为了当今世界上数一数二的识图工具,越来越多的应用途径,也让这款工具走出实验室和 PPT,成为用户了解新事物的另一种途径。
▲ 图片来自:9to5Google
但这种机械式的向导能取代人力成为未来游览的发展主流吗?我认为说「取代」那这话可能说得有点早了,而且在短期内,AI 向导不会取代人工成为主流。
首先我不否认 AI 的两个优势:全天候运作和可延展性。
相比于人工向导,AI 能 24 小时全天候工作,同时通过自学习能力,AI 能在执行任务的过程中不断学习。而且在网络的帮助下,AI 并不是一个大脑在学习,而是服务器主脑和终端「大脑」们的信息互通,从而组成一张存储特征的智能网络。
从表象来说,比如我用手机对着我面前的杯子进行扫描,系统会记录物体的特征信息,当其他用户扫面类似的物体时,AI 会进行特征识别和结果筛选,快速得出识别结果。或者当我第一次扫描这个物体时,AI 会先记录特征,当我第二次扫描时,AI 会继续增加特征点,从而全局提升识别的速度和准确率。
神经网络的自学习能力能让 AI 的识别效率接近人脑,甚至有着不受情绪和精神的影响,它可能还会超越人脑,但是能得出准确无误的结果,前提是需要大量训练。
AI 能在短时间内得出识别结果,实际上有赖于研发团队在功能推出前的各种训练工作。譬如在 Google 的 TensorFlow API 中,他们会通过 COCO 数据库的 90 大类、共 30 万张图像对 AI 进行识别训练,继而通过图像去提升 AI 的识别能力。但即便有着大量的训练信息作为基础,AI 也并非天下无敌。
The Verge 在近日的《人工智能难以识别低收入地区的日用品》这篇文章中,就对 AI 识别的基础进行探讨,并给出了「AI 训练不平衡」的观点。
研究人员发现,物体识别算法在识别月收入 50 美元的家庭物品时,结果的误差大约会比超过 3500 美元的物品增加 10%。而且不同地区物品的准确率也差异甚大,比如算法在识别美国物品方面会比索马里和布基纳法索的物品提升 15%~20% 的准确率。
另外这篇文章有意思的论点在于,由于 AI 识物在训练时大多都是在发达地区训练,因此对于非发达地区的物品,AI 识物会出现识别失效的情况,这种不平衡的现象很可能会影响未来自动驾驶在非发达地区的发展,因为自动驾驶需要依赖传感器和 AI 识别。
▲ 同一个 Soap(肥皂),不同的结果 . 图片来自:The Verge
所以尽管 AI 在某些方面比人类表现出色,但前提需要大量的数据支撑,对于存在变量的物品,人脑在学习和处理上则会比 AI 优秀。面对博物馆固定的展品,AI 能带来低成本、快捷的体验,但应对互动和数据库没有的物品,人力向导仍然占有一定优势。
不过 AI 要取代人力,真正要克服的不是知识量,而是交互情感。
AI 识物能提供详细的知识传播,但却不具备人类最可贵的互动交流。虽然 AI 识物方便参观者通过手机查看当前展品的详细信息,但这只是机械性地获得千篇一律的内容,而并非是人与人交流。这种区别就像网上授课和面对面课堂,获得的信息是不变的,但若是要提问详情中没有的知识,谁能解答呢?
当然,面对情感这个大问题,不少厂商也正通过语音优化让 AI 贴近人类发声,比如 Google Duplex 在语音中加入了仿人类的语气和停顿,「唔」、「哦」这些助词让 AI 说出的话更像是个真人而并不是机器人; 苹果 也在 iOS 13 通过 TTS 对 Siri 进行多语音拼合优化,让 Siri 的发音更加自然。
▲ Google Assistant 有特别的发音技巧
总体而言,虽然目前 AI 有着强大的学习能力和识别效率,但作为知识的提供途径,AI 当下仍处于辅助为主的发展阶段,拥有情感和交互的人力依然占有主流优势。
不过不可否的是,在 互联网 技术推动下,AI 已经踏上了高速路,越来越贴近真实人类,尽管目前我们还在为「人工智能」和「人工智障」而辩论 ,但是让 AI 在若干年后给我们提供新知识,并非不可能。
【来源:爱范儿】