与GPT-4对打!谷歌推出新模型PaLM2
5月10日周三举行的谷歌年度开发者大会GoogleI/O2023上,谷歌亮出了人工智能(AI)领域开发的最新成果。
谷歌CEOSundarPichai开场就指出,过去一年,AI成为热议话题,有了生成式AI,我们将迈出下一步。他说,要让AI对人人都有帮助,通过AI增加知识,提升学习能力、创造力、生产力,让他人能创新,负责任地创造和配置。
01
与GPT-4对打的PaLM2
在本届I/O开发者大会上,谷歌发布了其最新大语言模型(LLM)PaLM2。PaLM2是?种基于Transformer的模型,使?类似于UL2的混合?标进?训练。
谷歌于2022年4月首次宣布推出PaLM模型。PaLM的应用在这一年取得了很大的进展,今年3月,该公司推出了一款适用于PaLM的API以及一系列人工智能企业工具,帮助企业“通过简单的自然语言提示生成文本、图像、代码、视频、音频等”。这次大会上,Pichai宣布推出PaLM2预览版本,改进了数学、代码、推理、多语言翻译和自然语言生成能力。
- 多语言能力
谷歌声称,PaLM2是一种最先进的语言模型,具有改进的多语言、推理和编码功能。PaLM2在所有数据集上都优于PaLM,并取得了与GPT-4竞争的结果。
之前的大型预训练语言模型通常使用以英语文本为主的数据集,谷歌设计了一个更多语言和多样化的预训练混合模型,扩展到数百种语言和领域(例如编程语言、数学和并行多语言文档)。更大的模型可以处理更多不同的非英语数据集,而不会导致英语语言理解性能的下降,并应用重复数据删除来减少记忆。
PaLM2在多语言文本方面接受了更多的训练,涵盖100多种语言,显著提高了其在多种语言中理解、生成和翻译细微差别文本(包括成语、诗歌和谜语)的能力。根据基准测试,对于具有思维链prompt或自洽性的MATH、GSM8K和MGSM基准评估,PaLM2的部分结果超越了GPT-4。
PaLM2还通过了“精通”级别的高级语言能力考试。其中,PaLM2的日语水平达到了A级,而PaLM是F级。PaLM2的法语水平达到了C1级。
PaLM2和PaLM在最新的专业语?能?考试中的表现
不仅如此,PaLM2还了解重要的语言细微差别。在一篇描述PaLM2功能的研究论文中,谷歌工程师声称该系统的语言熟练程度“足以教授该语言”,并指出这是由于其训练数据中非英语文本更为普遍。
PaLM2的广泛数据集包括科学论文和包含数学表达式的网页,因此它还展示了逻辑、常识推理和数学方面的改进能力。
图片PaLM2推理能力示例
- 支持20种编程语言
PaLM2还改进了对编写和调试代码的支持。该模型使用20种编程语言进行了训练,包括JavaScript和Python等流行语言,还包括Prolog、Verilog和Fortran等语言。PaLM2构成了Codey的基础,Codey是谷歌用于编码和调试的专业模型,它也作为其代码完成和生成服务的一部分推出。
代码语?模型是当今最具经济意义和被?泛部署的LLM之?。为了在开发?员?作流程中进?低延迟、?吞吐量部署,谷歌通过在扩展的、代码密集型、多语?的数据混合上继续训练PaLM2-S模型,构建了?个?型的、特定于编码的PaLM2模型,谷歌将?成的模型称为PaLM2-S*。
PaLM2-S*在大量公开可用的源代码数据集上进行了预训练。它擅长Python和JavaScript等流行的编程语言,但也可以生成Prolog、Fortran和Verilog等语言的专用代码。
PaLM2-S在除了两种语言之外的所有语言上都优于PaLM,同时在像Julia和Haskell这样的低资源语言上几乎没有下降。例如,PaLM2-S在Haskell上比更大的PaLM-Coder-540B提高了6.3倍,在Julia上提高了4.7倍。值得注意的是,Java、JavaScript和TypeScript的性能实际上比原始语言Python更高。
PaLM2可以跨编程和自然语言生成代码和自然语言。大会上,Pichai还展示了在修改代码Bug后,PaLM2给出的韩语评论。
(点击链接看视频: https://mp.weixin.qq.com/s/kdXn9knFaZ9QpySIXYgJ9A )
谷歌内部已经有超过70个产品团队正在使用PaLM2构建产品,包括分别针对安全知识和医疗知识微调而成的Sec-PaLM和Med-PaLM2。
其中,Sec-PaLM是专注于安全用例的版本,使用AI帮助分析和解释具有潜在恶意脚本的行为,并检测哪些脚本对个人或组织构成威胁。Med-PaLM2是基于健康数据训练的版本,可以轻松通过美国医学执照考试,达到“专家”水平。
02
Bard的进化
在谷歌内部,PaLM2已经被用于支持25种功能和产品,包括该公司的实验性聊天机器人Bard。Bard在图像功能、编码功能和应用程序集成等方面都做了大幅更新。
Bard将更加直观地响应用户问题。比如对于“新奥尔良有哪些必看景点?”之类的问题,除了文本之外,用户还将看到丰富的图片视觉效果。用户还可以在自己的要求中附加图像和文本:
(点击链接看视频:https://mp.weixin.qq.com/s/kdXn9knFaZ9QpySIXYgJ9A)
编程方面,谷歌也将开发人员的反馈整合到了一些关键的编码升级中,包括:
- 来源引用:从下周起,代码引用将更加精确。如果Bard引入了一段代码或引用了其他内容,只需单击注释,Bard就会在相应内容下划线并链接到源代码。
- 深色主题:这是开发人员要求的另一项功能,谷歌希望以此让开发人员更轻松地与Bard互动。
- “导出”按钮:谷歌即将与合作伙伴Replit一起推出导出和运行代码的功能,首先会从Python开始。
另外,由于人们经常要求Bard抢先起草电子邮件和文档,谷歌大会上推出了两个导出操作,用户可以轻松将Bard的回复直接转移到Gmail和Docs中。
继微软5月4日宣布公司旗下基于ChatGPT-4的BingChat功能面向所有用户开放后,谷歌在本次大会上也宣布,Bard将向180多个国家和地区开放,其他更多国家和地区也将陆续开放。Bard现在有日语和韩语版本,谷歌表示很快就会支持40种语言。
03
生成式AI加入谷歌搜索
发布会上,谷歌推出了一款AI驱动的搜索引擎,其总体目标是“让搜索更智能,让搜索更简单”。
这款搜索引擎现可接收用户输入的提示词,整个使用过程更趋近人们在现实生活中的问询过程。而在我们熟悉的搜索结果列表之上,将出现由AI针对用户问题生成的概括性回答。
谷歌高管CathyEdwards在大会上指出,不同于以往直接搜索“哪个国家公园最好玩”的用法,现在用户可以像跟朋友聊天那样询问Google引擎哪处公园更适合带小孩和遛狗。例如,用户向搜索引擎提问,“对于带3岁以下小孩和宠物狗出行的家庭来说,布莱斯峡谷公园和拱门国家公园哪个更适合?”
Edwards强调,“虽然问题本身没有变化,但以往的搜索引擎可能没法直接消化完整的查询。用户会把它拆分成多个更小的部分、筛选信息,然后再自行拼凑起来——现在,搜索功能本身将为您搞定这些麻烦。”
Edwards将谷歌生成的摘要称为“AI驱动的快照,能帮助您快速了解关于某个主题的概况。”摘要中将包含来源链接,用户可以选择不同的查看格式来进一步剖析摘要背后的来源。AI生成的摘要还提供可点击的建议问题以鼓励交互,整个体验跟AI聊天机器人颇为相似。
AI驱动的定制化结果,也有望重塑消费者的线上购物体验。例如,谷歌在演示中询问了关于适合日常出行的自行车款式,结果不仅包含指向自行车商品的链接、价格和评论,还提供关于适合特定用途的自行车建议,以及理想车型应当具备的几大特点。Edwards提醒观众,在AI生成的摘要下方仍然保留了传统的搜索结果列表,继续将用户引导至已发布的原始内容处。她认为正是这种可溯源性,帮助维持着“网络的蓬勃发展”。
搜索生成体验未来将登陆美国用户的Chrome桌面,还有Android和iOS系统上的GoogleApp,且仅提供英文版本。谷歌表示将在未来几周开放测试邀请。
04
Gmail、谷歌地图和相册的AI功能
Pichai介绍,AI已经结合到谷歌的一些产品中,谷歌还将融入新的产品。其中一种是,Gmail将利用生成式AI推出实现“帮我写”(HelpMeWrite)的功能,帮助用户写邮件。
Pichai展示了一个例子,通过写一封信,获得航空公司的全额退款。谷歌有些设置能让生成的文本更长或更短,并且可以用之前的消息作为上下文,帮助AI编写内容。他说:“只要输入你想要的提示词,点击创建,就会出现一个完整的草稿。”
谷歌地图将提供名为“沉浸式视图”(ImmersiveView)的AI工具。该工具将获取空气质量和天气的信息,为谷歌地图用户选出一条路线,并将路线可视化。
Pichai展示了一条位于曼哈顿的自行车骑行路线。用户可以看到,走这条路线,沿着西区高速公路骑车会有什么情景,其中有AI支持的交通、天气和路线本身的渲染图。从演示中可以看到具备了flyover功能,可以帮助将出行信息叠加到用户界面。
Pichai说,沉浸式视图将在未来几个月内推广到十几个大城市。
谷歌相册将推出名为“神奇编辑”(MagicEditor)的功能,用生成式AI帮助用户重新构建照片,可以选择编辑照片的任何一部分,无论是画面的主角、天空还是背景,都可以编辑,可以抓取可以移除。
比如用户主要想拍的是瀑布,可以把瀑布边的人挪开些,拍照时人忘了取下背带,可以把拍到的背带抹去,可以把拍出的天空调得更明亮。
神奇编辑功能将于今年晚些时候在谷歌相册上线。
05
Workspace的DuetAIAI搜索功能Converse
谷歌称,谷歌的协作与生产力工具Workspace将很快能让用户借助AI生成完整的文档,并填写电子表格。这种AI服务名为DuetAI,将在今年晚些时候面向订阅者推出。
DuetAI可以让用户在文档、表格和幻灯片中融入AI服务。比如用户可以要求AI帮助撰写简历、整理企业图表或者为幻灯片生成图像,可以帮用户写文章和销售宣传材料,将它们放在谷歌文档中给所有人共享。谷歌幻灯片可以在App内生成AI图像。
谷歌为搜索服务推出了名为Converse的生成式AI功能。过去,用户想知道一个问题的回答,会在谷歌得到多个搜索结果,得自己综合这些结果。Converse可以为用户合成式的搜索结果。具体来说,它能提供一种“快照”,其中包括一些搜索结果文本或图片的生成式AI内容块,在它的下方是相关的链接。
谷歌称,Converse的搜索结果里会融入广告。和Workspace的一些AI功能一样,Converse将提供一种“对话模式”,用户可以在其中“提出”后续问题。
虽然谷歌没有透露具体何时上线Converse、哪些地区的用户可用,但这种功能属于搜索生成体验(SGE)的部分成果。谷歌称,Labs的用户可以在未来几周内使用,可以通过点击谷歌App或桌面版Chrome中的Labs图标访问。
06
谷歌云推出DuetAI服务和A3超级计算机虚拟机
谷歌云也有自己的DuetAI服务。
谷歌云的CEOThomasKurian称,所有谷歌的云服务合作伙伴都可以付费使用谷歌的AI模型,以及算力。
今年夏季,连锁汉堡餐厅Wendy’s将运用谷歌的技术,在俄亥俄州的一家门店接受用户订单,避免用户排长队。谷歌强调,经过其调整的大语言模型可以理解Wendy’s的产品名,比如简称JBC的产品是一种培根芝士汉堡。
谷歌推出了一个名为Tailwind的项目。它可以记录开发者的笔记,并可以在云端网盘中整理不同的笔记。它还能建一个学习指南,提取笔记中的关键概念。用户可以要求Tailwind整理信息,或根据所做的笔记向它提问。它也显示引用内容。
谷歌云还宣布,推出A3超级计算机虚拟机,旨在为语言模型提供优异的训练性能。这些虚拟机将搭载英伟达H100GPU、第四代英特尔Xeon可扩展处理器,与谷歌专门的数据中心结合,可提供高达26exaFlops的算力,将有助于减少训练更大模型的时间和成本。
07
升级安卓系统查找设备功能安卓手机可用生成式AI定制壁纸
谷歌将在今年夏季为安卓系统用户升级查找、锁定或清空设备的功能“找我的设备”(FindMyDevice)。这种新功能将利用安卓设备的网络,同多种生态系统的设备合作,帮助用户寻找设备,和苹果的FindMy功能依赖其他苹果设备定位遗失设备类似。
本月初,谷歌和苹果宣布,将联手为用户提供受到非必要跟踪的警报,作为重视隐私和安全的部分工作。谷歌将在今年夏天晚些时候上线这一服务,让用户知道,是否被未知的追踪方式跟踪。
此外,安卓手机将很快能依靠谷歌的生成式AI技术,根据用户的提示词,生成可定制的壁纸。该功能将在今年秋季上线。
08
谷歌发布新手机Pixel7a、首款可折叠手机PixelFold平板电脑Pixel
在硬件方面,谷歌发布了新一代安卓手机Pixel7a,售价499美元,搭载谷歌自研的TensorG2芯片,运行内存8GB,比Pixel7和Pixel7Pro更平价。
谷歌还发布了首款可折叠手机PixelFold,售价1799美元,也搭载TensorG2芯片,全部展开时手机显示屏为7.6英寸大小,本周三开始接受预订,下月发货。
谷歌宣布从本周三起,新版平板电脑Pixel接受预订,同样配置TensorG2芯片,起售价499美元,有128GB和256GB两种内存的版本可选。
责任编辑:张薇