谷歌的「AI帝国」 - IT思维
公众号/AI前线
作者 | 刘燕,核子可乐
又是一年谷歌 I/O 开发者大会,AI 依旧是绝对的主角。
北京时间 5 月 12 日凌晨,谷歌召开了 2022 年 I/O 开发者大会。会上,谷歌宣布了 AI 技术、硬件、软件等多个领域的重要进展。
谷歌 CEO Sundar Pichai 在开幕式的主题演讲中提到,自谷歌创立 24 年来,谷歌所取得的进步源于多年来对先进技术的投入,从人工智能到为这一切提供动力的技术基础设施。
Sundar Pichai 表示,谷歌的使命是,整合全球信息,供大众使用,使人人受益。谷歌主要通过两种关键方式来推进这一使命的实现:其一,深化对信息的理解,从而将信息转化为知识;其二,推动计算机技术发展,不论大家身在何处,都能方便快捷地获取信息和知识。
在这次 Google I/O 开发者大会上,谷歌发布了在上述两种方式上取得的进展,以及这些进展是怎样确保谷歌的产品惠及大众。
以下为 I/O 开发者大会上,谷歌在 AI 和计算方面的重要技术进展和发布。
AI 技术改进产品
采用 AI 技术改进谷歌的产品,使产品更有帮助,更容易获得,并提供创新的新功能。
更多搜索选项,更多查询自由
多重搜索功能
Google 之所以声名大噪,靠的就是他们标志性的互联网搜索引擎。
2022 年的 I/O 大会并没有带来太多让人眼前一亮的搜索新功能,但新的“我附近的多重搜索”(multi-search near me)功能还是让大家的日常生活更方便了些。
Google 现在允许用户同时搜索图片和文字(例如同时搜索漏水的水龙头图片加上更换配件信息),再过几个月,大家还可以在图片中添加“我附近的”来查询本地可用结果。如果我们在网上看到一道自己不了解的菜肴,只需要配合“我附近的”进行图像多重搜索,就能找到提供这道菜品的当地餐厅。
除此之外,Google 还通过新的“场景内搜索”增强了视觉搜索能力。其功能非常简单:只要在繁忙的场景(例如杂货店过道)中平移相机,就能立即获得关于画面内多个对象的信息。想比较不同品牌的沙拉酱哪个更好吃?完全不成问题。
从 Google 搜索中删除个人信息
Google 还添加了一项早该发布的功能:从 Google 搜索中手动删除个人相关信息。
如果大家曾经在 Google 上搜索过自己的名字,就会惊讶于自己原本有那么多生活细节已经被晒在了网上。在 Google 上,我们往往能轻松找到相应的家庭住址、电话号码等。使用此次新功能,用户可以立即提出删除请求、并随时监控处理状态。虽然还不能保证百分之百成功,但这至少要比完全无法控制个人信息要强得多。
Google 翻译新增了 24 种语言
新增 24 种语言
Google 在今年的 I/O 主题演讲中花了不少篇幅,讨论他们如何适应不同人群的方言和外貌特征。首先,Google Translate 新增 24 种语言,包括首次纳入的盖丘亚语和艾马拉语等美洲土著语言。
现在还有很多语言在互联网上出现得没有那么频繁,翻译这些语言是一个技术难题,因为用来训练翻译模型的文本通常是双语文本,像是同一个短语的英语和西班牙语版本,但并非所有语言都有足量的公开双语文本。
因此,随着机器学习的进步,谷歌开发了一种单语方式,能让翻译模型在从未见过某种新语言的直译版本的情况下,直接去学习翻译此新语言。
十点式肤色量表
除了语种增加之外,Google 还宣布使用哈佛大学教授 Ellis Monk 博士开发的 Monk 十点式肤色量表(MST)提供更多颜色选项。在理想情况下,这份量表已经能够涵盖绝大多数用户需求。Google 已经将其以开源开发工具的形式免费开放。
至于具体显示效果,Google 给出了用例展示,即通过肤色优化 Google Images 中的美妆搜索图像。这样美妆建议就能区分肤色较深和较浅的用户,分别给出不同的妆扮思路。总之,MST 有望为代表性不足的人群提供更好的在线体验。
Google Maps 新升级
AI 为 Google Maps 带来了新的升级。
AI 技术的进步有助于绘制偏远和农村地区的地图
目前,谷歌已在全球绘制了大约 16 亿座建筑和超过 6000 万公里的道路。由于缺乏高质量的图像和清晰的建筑类型和地貌特征,以前一直难以绘制一些偏远地区和农村地区的建筑和道路信息。为了解决这个问题,谷歌使用计算机视觉和神经网络技术,从卫星图像中探测建筑物。自 2020 年 7 月以来,Google Maps 上的非洲建筑物数量增加了 5 倍,从 6000 万幢增加到了近 3 亿幢。
沉浸式视图
Google Maps 在本届大会上迎来了另一项新功能,即沉浸式视图。
与之前就提供的卫星视图相比,沉浸式视图能为用户提供基于不同点位的 3D 俯视图,让人获得亲临现场的感受。这项功能也支持部分室内场景,例如餐厅,可帮助大家在出行前做好功课。
Google 表示,沉浸式视图将在 2022 年底率先于洛杉矶、纽约市、旧金山、东京和伦敦推出。
Google Assistant 可更自然地与你对话
对于喜欢跟智能设备交谈的朋友,Google 带来了针对 Google Assistant 的一系列改进。短期之内,Google 将为 Google Nest Hub Max 智能家居产品推出一项“看和说”新功能。顾名思义,此功能将摆脱“Hey Google”开启的针对性查询,支持设备通过与用户的眼神交流激活语音分析。只要盯着 Nest Hub Max 看,再询问天气状况,大家就能得到想要的答案。
从长远来看,Google 还打算研究如何让智能助手在发现表达失误之后,用更自然的方式推进对话。我们在与智能设备对话时,往往会一时词不达意、或者需要想想具体怎么表述,Google Assistant 应该能够识别出相应的语气特征,在用户思考时不做干扰。
自动生成技术应用于 YouTube
去年,谷歌推出了自动生成的章节,让用户可以更轻松地跳转到最感兴趣的部分。
此外,谷歌现在正在应用 DeepMind 的多模式技术,这项技术可以同时使用文本、音频和视频,并以更高的准确性和更快的速度自动生成章节。目标将自动生成章节的视频数量增加 10 倍,从目前的 800 万到明年的 8000 万。
通常,了解视频内容的最快方法是阅读它的脚本,所以谷歌也在使用语音识别模型来转录视频。现在所有 Android 和 iOS 的用户都可以获取视频的脚本。
接下来,谷歌将把 YouTube 上的自动翻译字幕应用到移动设备上。这意味着观众可以获取 16 种自动翻译的视频字幕。
AI 构建到 Google Workspace 系列产品中
谷歌正在将 AI 构建到 Workspace 系列产品中,以帮助人们提升工作效率。
Google Docs 引入了自动总结功能,将其中一个机器学习模型应用在文本总结功能种,Google Docs 将自动解析单词并提取出要点。这标志着自然语言处理的一个大飞跃。总结需要理解长段落、压缩信息并生成语言,而这些已经超出过去最好的机器学习模型的能力。
此外,团队还将总结功能引入 Google Workspace 的其他产品。在接下来的几个月里,Google Chat 将使用该功能,为聊天对话提供摘要,帮助用户迅速加入群聊,或回顾重点信息。还将把将转录和总结功能引入 Google Meet,这样用户可以快速补上重要会议中错过的部分。
Google Meet 通话 AI 增强
Google 在本届 I/O 上还展示了另外一项不太起眼、但效果拔群的新功能——Google Meet 通话 AI 增强。
Google 凭借先进的机器学习技术增强了用户在网络摄像头中的形象,能够大大改善其他 Google Meet 用户看到的最终画面。之前用过 Google Meet 的朋友肯定或多或少遇到过光照条件不佳、显示效果糟糕的窘境,现在问题终于解决了。当然,最好的办法还是买个补光灯。
此外还为 Google Meet 带来了摄影棚规格的虚拟灯光,可以调整灯光的位置和亮度,用户即使身处黑暗的房间或坐在窗前仍然可以被清晰看到。这项功能正在测试中。
通过计算使知识更易获得
推出生成语言模型 LaMDA 2
谷歌研发的用于对话应有的生成语言模型 LaMDA 的 Demo,以及 AI Test Kitchen,继续提升人工智能的对话能力。
对话和自然语言处理都能让人们以更简单的方式使用计算机。大型语言模型是实现这一目标的关键。去年,谷歌发布了 LaMDA,这是一个用于对话应用的生成语言模型,可就任何主题展开对话。现在,谷歌公开了 LaMDA 2 —— 目前打造的最先进的对话 AI。
PaLM:5400 亿参数的大型语言模型
为了探索自然语言处理和 AI 的其它方面,谷歌最近还公开了新模型 Pathways Language Model(PaLM)。这是谷歌迄今为止研发的最大规模的模型,基于 5400 亿参数训练而成。
PaLM 在许多自然语言处理任务上都有着不俗的表现,例如从文本生成代码,回答数学问题,甚至解释一个笑话。
“思维提示链”技术让模型能更好地进行推理,给出更准确的答案。“思维提示链”大大提高了 PaLM 的准确性,让它在包括数学问题在内的多个推理基准测试(reasoning benchmarks)中达到了最顶级水平。
推出全世界最大的开放机器学习中心
在基础设施方面创新方面,谷歌宣布 计划向美国各地的数据中心和办公室投资 95 亿美元。谷歌将为 Google Cloud 客户推出全世界最大的开放机器学习中心。
该机器学习中心拥有 8 个 Cloud TPU v4 芯片,是 Google 定制,建在为 Google 最大的神经模型提供支持的网络基础设施之上,能提供接近 9 x 1018 的算力,可以为 Google 的客户提供前所未有的运行复杂模型和工作负荷的能力,希望这将推动医学、物流等领域的创新。
增强现实技术:计算技术新前沿
谷歌在 AR 领域投入颇多:已将 AR 引用到许多产品当中,包括 Google Lens、多重搜索(multisearch)、场景探索(scene exploration)以及 Google Maps 的 Live Views 和沉浸式视图功能。AR 各项性能已应用于手机终端。
小结
Google I/O 2022 规模浩大、内容无法一一尽数,相信无论您是 Google 铁粉还是普通用户,都能从中找到自己感兴趣的议题。
参考链接:
https://mashable.com/article/google-io-2022-everything-announced
https://mp.weixin.qq.com/s/LROdPhenTe_AIsU88FEXZw