学界 | 谷歌ICLR 2017论文提出超大规模的神经网络：稀疏门控专家混合层（附论文）

搜狐科技 • 8年前扫码分享

选自ICLR2017

机器之心编译

参与：吴攀

　　学界 | 谷歌ICLR 2017论文提出超大规模的神经网络：稀疏门控专家混合层（附论文）

摘要：神经网络吸收信息的能力受限于其参数的数量。在这篇论文中，我们提出一种新类型的层――稀疏门控专家混合层（Sparsely-Gated Mixture-of-Experts(MoE)），它能够在仅需增加一点计算的基础上被用于有效提升模型的能力。这种层包含了多达数万个前向的子网络（feed-forward sub-networks，被称为专家（expert）），总共包含了多达数百亿个参数。一个可训练的门网络（gating network）可以确定这些专家的稀疏组合以用于每一个样本。我们将这种 MoE 应用到了语言建模任务上――在这种任务中，模型能力对吸收训练语料库中可用的大量世界知识而言是至关重要的。我们提出了将 MoE 层注入堆叠 LSTM（stacked LSTM）的新型语言模型架构，得到的模型的可用参数数量可比其它模型多几个数量级。在语言建模和机器翻译基准上，我们在更低的成本上实现了可与当前最佳表现媲美或更好的结果，其中包括在 1 Billion Word Language Modeling Benchmark 上测得的 29.9 的困惑度（perplexity），以及在 WMT』14 En to Fr（英法翻译）和 En to De（英德翻译）上分别得到了 40.56 和 26.03 的 BLEU 分数。

　　学界 | 谷歌ICLR 2017论文提出超大规模的神经网络：稀疏门控专家混合层（附论文）

图 1：一个嵌入在语言模型中的专家混合（MoE/Mixture of Experts）层。在这里例子中，其稀疏门函数（sparse gating function）可以选择两个专家（expert）来执行计算。它们的输出由该门网络（gating network）的输出进行调制。

©本文由机器之心编译， 转载请联系本公众号获得授权 。

　　 ?------------------------------------------------

加入机器之心（全职记者/实习生）：hr@almosthuman.cn

投稿或寻求报道：editor@almosthuman.cn

广告&商务合作：bd@almosthuman.cn

随意打赏

谷歌DeepMind开发DolphinGemma AI模型，助力海豚“语言”研究

砍柴网 • 3分钟前

4月15日消息，谷歌旗下的AI研究实验室谷歌DeepMind今日宣布，成功开发出一款名为DolphinGemma的AI模型，旨在助力科学家深入研究海豚的“语言”，更好地理解海豚的沟通方式。据IT之家了解，DolphinGemma是基于谷歌开放的Gemma系列模型构建的，其训练数据来源于专注于研究大西洋斑点海豚
谷歌安卓和Pixel手机团队被曝裁员数百人

砍柴网 • 23小时前

4月14日消息，据《The Information》上周五报道，一位了解情况的人士透露，Alphabet旗下的谷歌在其平台和设备部门裁员数百人。报道称，该部门（IT之家注：包括Android平台、Pixel 手机和Chrome浏览器等应用）的裁员，发生在谷歌1月份向该部门员工发出要约之后。
谷歌Pixel 9a手机支持电池健康度辅助功能：随老化进程分阶段调整最大电压

砍柴网 • 23小时前

4月14日消息，谷歌Pixel手机帮助中心页面显示，该企业新推出的Pixel 9a智能手机支持一项名为“电池健康度辅助功能”的独占新特性，该功能可帮助稳定电池性能和老化速度。 “电池健康度辅助功能”会随着电池老化自动管理Pixel 9a电池的长期健康状况和性能。此软件将从200个充电周期开始分
谷歌诠释Pixel 9a手机设计思路：相机“圆顶”方案，探索美学新方向

砍柴网 • 2天前

4月12日消息，科技媒体 Android Authority今天（4月12日）发布博文，报道称谷歌回应Pixel 9a 手机相机模块灵感来自Pixel Watch的“水滴造型”，内部将其称为“圆顶”设计。谷歌Pixel 9a手机发布后，但其设计选择引发热烈
谷歌Gemini AI新功能Circle Screen曝光：圈选截屏特定区域，实现精准搜索

砍柴网 • 2天前

4月12日消息，科技媒体 Android Authority昨日（4月11日）发布博文，报道称谷歌计划发布Circle Screen功能，支持用户圈选屏幕部分内容，实现精准搜索。谷歌近期在Instagram上发布了一段展示Gemini屏幕共享功能的视频，意外透露了一项未公开
谷歌Pixel Watch 4智能手表渲染图首曝：收窄边框、更大电池、新增双按键，有望支持无线充电

砍柴网 • 2天前

4月12日消息，科技媒体 91Mobile昨日（4月11日）发布博文，分享了一组渲染图片，展示了谷歌Pixel Watch 4智能手表。作为Pixel Watch 3的继任者，新款手表将升级设计和性能，带来更卓越的使用体验。外观方面，Pixel Watch 4延续了前代Pi
Gemini 大模型逆袭，给了 Google Cloud「AI 基建」的勇气

极客公园 • 3天前

北京时间 4 月 10 日凌晨，Google Cloud Next 2025 正式揭开序幕。如果用「AI 届的苹果发布会」来形容每年的英伟达硬件发布会，那「AI 届的 CES」或许更适合用来形容今年的 Google Cloud Next；虽然同样令人兴奋，但每一个来到现场的人都带着自己的问题，现场随处可见各种务实的交
终究是Google和Anthropic，扛下了连接一切Agent的所有

虎嗅网 • 3天前

Google Cloud Next'25大会上，Google“杀疯了”，而与其说今年的大会是一场按部就班的发布会，不如看作是Google Cloud在全球AI军备竞赛中的一次表态。面对亚马逊AWS和微软Azure这两大巨头的挤压，尽管手握DeepMind等顶尖AI研究力量，Google Cloud在市场份额上
谷歌承诺终止汽车服务和地图相关限制竞争措施，德国反垄断机构结束调查

i黑马 • 4天前

德国反垄断机构“联邦卡特尔局”4月9日发布声明称，谷歌承诺将终止与谷歌汽车服务和地图平台有关的多项限制竞争措施，该机构结束诉讼程序。德国反垄断机构此前曾对谷歌车载地图与信息娱乐系统捆绑的形式表示担忧，称这可能会阻碍竞争对手单独销售类似服务的机会。文章评价匿名用户发布发布
安卓版谷歌Chrome浏览器135优化手势导航，增强全屏沉浸感

砍柴网 • 4天前

4月10日消息，科技媒体 9to5Google昨日（4月9日）发布博文，报道称在安卓版Chrome浏览器135版本中，谷歌正逐步推送底部全屏设计更新，进一步提升网页浏览沉浸感。用户在向下滚动网页后，安卓系统的手势导航栏将不再以固定的背景色显示，而是直接叠加在网页内容之上，这
新加坡国立大学赖载兴教授专访：用混沌边缘改善神经网络，与上帝掷骰子

雷锋网 • 7月前

2021年，诺贝尓奖委员会决定将物理奖颁发给复杂系统研究领域、以乔治·帕里西（George Parisi）为首三位科学家。当时不仅物理学界，许多计算神经科学家或理论机器学习学者表达了对帕里西的祝贺和感激，认为他的理论成果极大地推动了神经网络理论研究这一跨学科领域的蓬勃发展。在新加坡国立大学，Choy
车路云一体化建设：三旺通信TSN方案构建智能交通神经网络

砍柴网 • 8月前

前言一个多雾的早晨，高速公路上能见度极低，智能感知设备检测到这一情况后，立即通过V2I通信向所有车辆发送警报，车载系统自动调整至智能引导模式，确保安全行驶。同一时间，一辆故障车停在应急车道，通过V2I模块自动向监控中心求助，救援车辆迅速响应，并通过V2V通信向周边车辆发出预警，有效预防次生事故。与此同时，一辆超速车辆触
用扩散模型生成神经网络？NUS 尤洋团队：这不是开玩笑

雷锋网 • 1年前

作者：赖文昕编辑：郭思、陈彩娴说起扩散模型生成的东西，你会立刻想到什么？是OpenAI的经典牛油果椅子？是英伟达Magic3D生成的蓝色箭毒蛙？还是斯坦福大学和微软Folding Diffusion生成的蛋白质结构？这些都是扩散模型的魔法展示，而近期，关于扩散模型的研究又进行了一次全新的升级。由新加坡国立大学尤洋团队、
微美全息研究基于混合循环神经网络架构的人机协作意图识别

砍柴网 • 1年前

在当今科技发展迅速的时代，人机协作已经成为一个重要的研究话题。随着人工智能技术的不断进步，人机协作的应用范围也越来越广泛，其在智能交通、智能家居和智能机器人等领域已经得到了广泛的应用。在实际应用中，人机协作的意图识别是一个关键问题。要实现高效的人机协作，机器需要准确地理解人类用户的意图，以
微美全息创新突破利用群体智能算法优化人工神经网络

砍柴网 • 1年前

人工神经网络（Artificial Neural Network，ANN）已成为机器学习领域的核心算法之一，推动了自然语言处理、计算机视觉、无人驾驶、语音识别、医疗诊断和推荐系统等多个领域的技术进步。近年来，人工神经网络在众多领域得到了广泛应用。在应用人工神经网络之前，需要确定网络结构并对其进行训练。网络结构的选择通常
华为等靠激光雷达推自动驾驶！特斯拉不屑全力抛弃：开始依赖神经网络

砍柴网 • 1年前

11月29日消息，据国内媒体报道称，当其他车企还在依赖激光雷达等类型的传感器为用户推出辅助/自动驾驶功能时，特斯拉已经开始依赖神经网络和人工智能进行所谓的完全自动驾驶。从目前的情况看，特斯拉的完全自动驾驶（FSD）V12版本放弃代码（30多万代码降至2000行），使用神经网络进行车
纽约大学团队开发用于基因组学的神经网络，并解释了它如何实现准确的预测 - IT思维

IT思维 • 1年前

公众号/ ScienceAI（ID：Philosophyai）编辑 | 萝卜皮机器学习方法，特别是在大型数据集上训练的神经网络，正在改变科学家进行科学发现和实验设计的方式。然而，当前最先进的神经网络因其不可解释性而受到限制：尽管他们具有出色的准确性，但他们无法描述他们是如何得出
使用卷积神经网络从相关 Moiré 超晶格的STM数据中学习有效的理论模型 - IT思维

IT思维 • 1年前

公众号/ ScienceAI（ID：Philosophyai）编辑 | 萝卜皮现代扫描探针技术，例如扫描隧道显微镜，可以获取编码量子物质基础物理的大量数据。斯图加特大学（Universität Stuttgart）的研究人员展示了如何使用卷
一种新型神经网络正在帮助物理学家应对数据分析的艰巨挑战 - IT思维

IT思维 • 1年前

公众号/ ScienceAI（ID：Philosophyai）编辑 | 绿萝假设你有一本一千页的书，但每一页只有一行文字。你使用扫描仪提取书中包含的信息，这个特定的扫描仪系统地扫描每一页，一次扫描一平方英寸，要花很长时间才能读完整本书，而且大部分时间会浪费在扫描空白处。这就是许多
微美全息开发基于仿生模式识别（BPR）的卷积神经网络（CNN）图像分类技术方案

砍柴网 • 1年前

近年来，随着人工智能技术的不断发展和应用，图像分类技术在多个领域得到了广泛应用。并且伴随着深度学习的兴起，卷积神经网络（CNN）已经成为了处理图像分类任务的主流模型。CNN通过自动从图像中提取特征来识别图像，并使用softmax函数进行分类。然而，由于softmax函数的限制，传统CNN模型在图像分类方面存在一些不足。

评论