OpenAI 突然推送推送高级语音模式「Her」，又抢了谷歌风头

极客公园 • 6月前扫码分享

9 月 25 日早，Google 发布两款新模型 Gemini-1.5-Pro-002 和 Gemini-1.5-Flash-002。

在谷歌的系列模型中，Gemini Pro 属于中号模型，付费用户可以使用。而 Gemini Flash 则由 Gemini Pro 蒸馏而来，在今年 5 月的 Google I/O 上第一次亮相，目前用户可以免费在 Gemini 中使用，开发者也有一定免费的 api 使用配额。

模型升级的重点主要为 1.5 Pro 价格降低 >50%、1.5 Flash 的速率限制提高了 2 倍，1.5 Pro 的速率限制提高了约 3 倍、输出速度提高 2 倍，延迟降低 3 倍；过滤器切换为选择加入。

不过，似乎 Google 今天的宣传节点再一次被 OpenAI 提前知晓。OpenAI 同日宣布，OpenAI 的高级语音模式，将在本周对 Plus 和 Team 用户推出。

5 月，Google 发布 Gemini 模型的大更新前，OpenAI 就曾提前抢开发布会，宣布很快会带来高级语音模式，登上媒体头条「个人助理 Her 就要来了吗？」

接下来半年，高级语音模式的发布一再推迟，直至今日 Google 更新模型，OpenAI 立刻表示，本周内将推出语音模型。

除了之前已经剧透过的语音模式与人类在对话中的反应时间相近，会变换语调之外，还增加了个性化指令功能——可以直接指令模型说话说慢点，或者用一个特定的口音，同时可以记住你的名字和提前提供的信息给出更个性化的回复。

X 上有用户不禁感叹，OpenAI 已经养成了一个新爱好。等着 Google 发布一个什么东西，几个小时后马上发布一个新东西。

OpenAI 突然推送推送高级语音模式「Her」，又抢了谷歌风头

Google Gemini Pro 价格下降一半

从 Gemini-1.5-Pro-002 和 Gemini-1.5-Flash-002 的名字也可以看出，此次 Google Gemini 的更新，不是一个大版本的更新，更多的是一次整体模型的升级。

降低价格是一个重要的更新重点。

Gemini 1.5 Pro 的输入 token 价格降低 64%，输出 token 价格降低 52%，增量缓存 token 价格降低 64%，适用于小于 128K token 的提示语，自 2024 年 10 月 1 日起生效。再加上上下文缓存，这将继续降低使用 Gemini 构建应用的成本。

此外，1.5 Flash 的速率限制从 1000 RPM 提高到 2000 RPM，1.5 Pro 的速率限制从 360 RPM 提高到 1000 RPM。在接下来的几周内生效。

Google 1.5 Flash 得到了 2 倍输出速度和 3 倍更低延迟。

同时，Google 表示，发布的 Gemini 模型，默认不会应用过滤器，开发者可以根据其用例自行决定最佳的配置。Gemini 将继续提供一系列安全过滤器，开发者可以根据需要为 Google 的模型应用这些过滤器。

Google 还表示，此次模型在数学、长上下文窗口和视觉方面取得了一定的进步。

在更具挑战性的 MMLU-Pro 基准测试中，看到大约 7% 的性能提升。而在数学和 HiddenMath（一个内部保留的数学竞赛问题集）基准测试中，两个模型都取得了约 20% 的显著进步。对于视觉和代码使用场景，两个模型在评估视觉理解和 Python 代码生成的测试中表现也更好，提升范围在约 2-7% 之间。

OpenAI 突然推送推送高级语音模式「Her」，又抢了谷歌风头