谷歌新一代WaveNet ：深度学习怎么生成语音？

雷锋网 • 6年前扫码分享

我是创始人李岩：很抱歉！给自己产品做个广告，点击进来看看。

这里是，雷锋字幕组编译的Two minutes paper专栏，每周带大家用碎片时间阅览前沿技术，了解AI领域的最新研究成果。

原标题 NATURAL TTS SYNTHESIS BY CONDITIONING WAVENET ON MEL SPECTROGRAM PREDICTIONS | Two Minute Papers

翻译 | 张锋凯整理 | 凡江林尤添

在往期的2分钟论文栏目中，我们有谈过Google的WaveNet（一个基于学习型的文本到语音引擎），也就是说，只要我们给予已经训练好的模型一些朗读的素材，引擎就会尽可能生成一个较真实的声音。而在本期视频中，我们将介绍一个新的产品，它在原有的基础上进行改进，让合成语音臻于完美。

谷歌新一代WaveNet ：深度学习怎么生成语音？

图片来源： WaveNet: A Generative Model for Raw Audio

点开本期视频后，你会听到，合成的语音在韵律，重读，和语调上都非常出色，以至于我们真假难辨。相关的音频信息可以在这里找到： https://google.github.io/tacotron/publications/tacotron2/index.html

在原先Google的WaveNet论文中，我们为了解决语音合成难题，创造了扩张卷积，这个网络结构跳跃性地输入数据，由此使我们我们有了更好的全局视野。这有点像增加我们眼睛的感受野，让我们能够感受整个景观，而不是照片中只有树的狭窄的视角。

新框架利用梅尔声谱作为WaveNet的输入，这种声谱是一种基于人类感知的中间媒介，它不仅记录了不同的单词如何发音，而且还记录了预期的音量和语调。

谷歌新一代WaveNet ：深度学习怎么生成语音？

新模型接受了大约24小时的语音数据训练，当然，模型都是要经过某种程度的检验才合格。

我们对其的检验方法是记录以前算法的平均意见分（用来描述声音样本和人类真实声音的比分）。我们的新算法大获成功，之后通过用户研究更加接地气的检验，让用户进行盲测，猜测听到的声音是合成的还是真实的。

谷歌新一代WaveNet ：深度学习怎么生成语音？

的确不可思议，因为大部分的测试结果都是——人们真假莫辨。

谷歌新一代WaveNet ：深度学习怎么生成语音？

请注意，生成这些波形不是实时的，而且还需要很长时间。为了有更好的效率，DeepMind的科学家撰写了一篇轰动的论文，把WaveNe的波形生成速度提升了上千倍。当然，新发明也会带来新挑战——这可能导致录音更容易被伪造，而录音将被削弱作为物证的可信性，除非我们找到一种新的检验方法，例如在录音上加入数字签名。

论文原址 https://arxiv.org/pdf/1712.05884.pdf

更多文章，关注雷锋网 (公众号：雷锋网) ，添加雷锋字幕组微信号（leiphonefansub）为好友

备注「我要加入」，To be a AI Volunteer ！

谷歌新一代WaveNet ：深度学习怎么生成语音？

谷歌新一代WaveNet ：深度学习怎么生成语音？

雷锋网雷锋网

。

谷歌新一代WaveNet ：深度学习怎么生成语音？

随意打赏

机器学习和深度学习深度学习的应用深度学习ppt 深度学习论文深度增强学习深度学习教程深度学习模型深度学习算法深度学习技术深度学习入门

谷歌大力推广 Gemini，代码显示其将为引擎主页加入 AI 模式

砍柴网 • 19小时前

12 月 21 日消息，据外媒The Information报道，谷歌正在大力推广其Gemini AI，目前该公司正在为其谷歌搜索引擎网页主页及移动平台手机软件加入“AI模式”，该模式将提供一个类似Gemini的聊天对话式的AI窗口。外媒经过挖掘，发现谷歌移动平台手机软件代码中已含
隐私之争：谷歌指纹识别技术遭ICO炮轰

砍柴网 • 19小时前

12 月 21 日消息，英国信息专员办公室（Information Commissioner's Office）于 12 月 19 日发布博文，批评谷歌公司“不负责任”，让广告商使用“指纹识别”技术追踪用户。IT之家注：“指纹识别”类似于增强版的 Cookie，主要通过收集设备的软硬件信息
谷歌「被迫」研发的TPU，引发成千芯片与之竞逐

雷锋网 • 1天前

12月12日，谷歌宣布其第六代TPU（张量处理器），Trillium正式上市。谷歌计算和人工智能基础设施副总裁兼总经理Mark Lohmeyer表示，谷歌旗下的大模型Gemini 2.0正是采用Trillium进行训练， TPU是Google Cloud AI超级计算（AI Hypercomputer）的关键组件，集成
本地 AI 模型护航，谷歌 Chrome 浏览器强化反诈骗能力

砍柴网 • 1天前

12 月 20 日消息，消息源 @Leopeva64 昨日（12 月 19 日）在 X 平台发布推文，报道称谷歌正为 Chrome 浏览器，测试基于 AI 的欺诈检测功能，用户可以通过实验性 Flag 启用尝试。该实验性 Flag 名为“客户端检测品牌和诈骗检测意图”，用户启用后，浏览器将利用设备上的大语言模型（LLM
谷歌新规引担忧：消息称外包人员被迫评估自己不擅长的Gemini回复

砍柴网 • 2天前

12 月 19 日消息，据 TechCrunch 报道，谷歌针对其大型语言模型 Gemini 回复的外包评估流程进行了一项调整，引发了外界对其在敏感领域信息准确性的担忧。这项调整要求外包评估员不得再像以往那样，因自身专业知识不足而跳过某些特定的评估任务，这或将导致 Gemini 在医疗保健等高度专业性领域的信息输出出现
谷歌量子芯片重磅登场掀热潮，微美全息持续打造量子“芯”质生产力

砍柴网 • 3天前

近日，媒体报道，谷歌公布重大突破——其最新量子芯片Willow在基准测试取得惊人成绩，不到5分钟完成一项标准计算。量子计算芯片横空出世现下最快的超级计算机完成同样的任务，足足要花费超过10-25年的时间，比宇宙的年龄还长！谷歌Willow的突破可在使用更多量子比特的情况下成倍减少错
谷歌推出新AI视频生成器Veo 2，称表现好于Sora

砍柴网 • 4天前

12月17日消息，谷歌今日发布最新版本的视频生成模型Veo 2，与OpenAI的Sora展开正面竞争。谷歌表示，Veo 2可以生成更为逼真的视频内容。与此同时，谷歌还对其图像生成模型Imagen进行了升级，推出了Imagen 3，旨在生成内容更为丰富、细节更为精致的图片。谷歌指出，Veo 2“对现实世界的物理规律以及人
谷歌最强文生图 Imagen 3 再进化：多样艺术风格、构图更平衡

砍柴网 • 4天前

12 月 17 日消息，谷歌公司昨日（12 月 16 日）发布博文，在发布 Veo 2 视频生成模型之外，还增强了 Imagen 3 文生图 AI 模型，为用户带来更多花样的艺术风格。谷歌表示 Imagen 3 是谷歌最强的文生图模型，在最新版本中添加了现实主义、幻想主义、肖像画等各种多样化艺术风格
谷歌 Astra 智能眼镜登场：融合多模态 AI 与 AR 技术

砍柴网 • 4天前

12 月 17 日消息，谷歌 DeepMind 网站已为 Project Astra 项目开设了新的测试频道，计划邀请部分用户，测试配备 AI 和 AR 技术的原型眼镜，以便于进一步收集用户反馈、推进该眼镜商用落地。图源：谷歌在系统方面，消息称该 AR 眼镜原型运行 Android XR，
谷歌发布AI图像生成新工具Whisk，支持上传多张图片以图生图

砍柴网 • 4天前

12 月 17 日消息，谷歌今日发布了一款名为 Whisk 的全新 AI 图像生成工具，该工具允许用户使用其他图像作为提示来生成图像，而不需要冗长的文本提示。用户只需提供图像，即可指定 AI 生成图像的主题、场景和风格。使用 Whisk 时，用户可以为主题、场景和风格分别提供多张图像作为提示。（当然，用户仍然可以选择使

评论