IBM高级研发工程师武维：如何分布式训练深度学习模型？

雷锋网 • 7年前扫码分享

我是创始人李岩：很抱歉！给自己产品做个广告，点击进来看看。

雷锋网AI研习社按 ：随着深度学习神经网络规模越来越大，训练一个深度神经网络（Deep Neural Networks, DNNs）往往需要几天甚至几周的时间。为了加快学习速度，经常需要分布式的 CPU/GPU 集群来完成整个训练。本文就就来为大家简单简单介绍一下如何进行分布式训练深度学习模型。

在近期雷锋网 (公众号：雷锋网) AI 研习社的线上公开课上，来自 IBM 系统部研发工程师武维博士为大家做了一期主题为「深度学习中的分布式训练」的在线分享，错过了直播的同学们如果看了本文有疑惑之处还可以到雷锋网 AI 慕课学院观看 视频回放 。

以下是雷锋网对视频直播内容做的简要回顾：

武维，IBM 系统部研发工程师，曾就职于华为大数据产品部及 IBM 中国研究院，担任系统工程师/研究员；西安交通大学系统工程博士，目前主要研发方向为深度学习中的分布式训练框架与模型。

分享提纲：

为什么要分布式训练深度学习模型及分布式TensorFlow架构。

TensorFlow图内复制和图间复制。

深度学习模型异步训练和同步训练。

Case Study：如何把单机模型分布式化。

分布式模型训练性能介绍。

分享内容：

大家好，我是武维，今天分享的第一部分介绍一下为什么要采用分布式训练以及分布式 TensorFlow 的架构，第二部分讲 TensorFlow 图内复制和图间复制，第三部分是关于分布式训练中的同步训练和异步训练的简要介绍。第四部分是关于如何把单机模型分布式化成分布式模型，第五部分是关于分布式训练的性能介绍。

为什么要采用分布式训练呢，分布式训练主要处理什么问题，以及如何处理的？

下图是关于TPU架构数据中心的图

IBM高级研发工程师武维：如何分布式训练深度学习模型？

第一个原因，是增加训练的吞吐量；第二个原因是是针对大模型训练，大模型通常在一个设备中放不下。

下面左图中的横坐标可以认为是 GPU 个数，纵坐标为处理图片的速度。

IBM高级研发工程师武维：如何分布式训练深度学习模型？

针对大模型怎么去训练？现在的办法是把模型拆解到不同的GPU卡里面，每个GPU卡里面训练一部分，这样就可以把一个大模型分布式训练起来。

IBM高级研发工程师武维：如何分布式训练深度学习模型？

如何实现这个流程

IBM高级研发工程师武维：如何分布式训练深度学习模型？

左边是TensorFlow的一个基本的运行流程。

IBM高级研发工程师武维：如何分布式训练深度学习模型？

TensorFlow 的发展过程

IBM高级研发工程师武维：如何分布式训练深度学习模型？

分布式TensorFlow架构，它的架构是基于Master 和 Slaver的架构。

IBM高级研发工程师武维：如何分布式训练深度学习模型？

以上是从master 和slaver 的角度讲深度学习分布式架构，下面从worker 的角度来看：

IBM高级研发工程师武维：如何分布式训练深度学习模型？

深度学习首先要训练参数，在分布式里面会把参数存放在参数服务器，如果 worker 需要运算的话，首先从参数服务器读取参数到到 CPU 上。目前来说，大多数的深度学习训练都是在 GPU 设备上进行的，所以需要把读取的数据复制到 GPU 上，GPU 就可以从左往右开始运算。最后通过求导找到变量所对应的梯度，然后在将梯度复制到机器上所对应的的 CPU 上，CPU 再通过网络通信把他发送给参数服务器，这是从整个 worker 角度去看分布式架构。

IBM高级研发工程师武维：如何分布式训练深度学习模型？

TensorFlow 在分布式训练里面有两个比较重要的概念分别是「图内复制」和「图间复制」。分布式训练意味着有一个集群，先定义一个分布式集群。下面是图内复制，这种情况适合单机多卡。

IBM高级研发工程师武维：如何分布式训练深度学习模型？

如果是多台计算机的时候，分发数据带来的数据瓶颈就会比较大，如果采用图内复制，数据传输会产生瓶颈。这个时候需要用图间复制，两个图可以中间共享变量，解决了训练数据分发的问题，这种方式适用于多机多卡训练。图间复制有多个客户端，图内复制只有一个客户端。

IBM高级研发工程师武维：如何分布式训练深度学习模型？

TensorFlow 封装了高级 API，会自动把参数部署到参数服务器上，把运算操作设定到 worker 上，这些就实现了一份代码可在多个 worker 上运行，简化了客户端程序的编写。

IBM高级研发工程师武维：如何分布式训练深度学习模型？

如何分布式寻找最优W？同步训练和异步训练有什么区别？

随机梯度下降法：第一个式子数值求偏导，计算量太大，不实际。通常用微积分求导，解析解。

IBM高级研发工程师武维：如何分布式训练深度学习模型？

分布式随机梯度下降法

IBM高级研发工程师武维：如何分布式训练深度学习模型？

异步训练过程：异步训练为TensorFlow上每个节点上的任务为独立训练方式，不需要和其他节点在参数服务器上同步梯度。

IBM高级研发工程师武维：如何分布式训练深度学习模型？

同步训练过程：同步训练需要和其他节点在参数服务器上Reduce梯度。

IBM高级研发工程师武维：如何分布式训练深度学习模型？

第四部分是如何编写分布式训练模型示例，大家可以观看视频回放。

下图是单机版线性回归模型示例

IBM高级研发工程师武维：如何分布式训练深度学习模型？

第五部分是 分布式训练的性能比较

评价指标通常分为模型方面和平台方面。在模型方面常用指标是：准确率、召回率、AP等。平台方面

主要看吞吐量、加速比。

IBM高级研发工程师武维：如何分布式训练深度学习模型？

异步训练的吞吐量比同步训练好，所以异步训练要比同步训练的快。

IBM高级研发工程师武维：如何分布式训练深度学习模型？

同步算法和异步算法的比较

IBM高级研发工程师武维：如何分布式训练深度学习模型？

以上就是本次分享的主要内容，代码实现部分建议同学们直接观看回放视频，也可关注嘉宾武维的GitHub地址。

微信公众号：「AI 研习社」长期提供免费视频直播课程，欢迎关注！

。

IBM高级研发工程师武维：如何分布式训练深度学习模型？

随意打赏

IBM专家观点：智算引擎LSF助力生命科学行业拥抱AI时代

砍柴网 • 1分钟前

随着基因测序技术的突破、蛋白质组学，分子动力学研究的深入以及AI技术的崛起，生命科学与生物制药领域正经历前所未有的变革。然而，这一进程也面临一些严峻挑战，比如海量数据的处理，单次全基因组测序产生超过200GB数据，蛋白质分子动力学模拟需百万级计算步骤。AI驱动的药物筛选、基因编辑效率预测等任务依赖高性能计算（HPC）与
关停中国投资公司，IBM中国业务还有什么？

虎嗅网 • 1天前

3月1日，IBM中国向《财经》确认，即日起正式关停IBM中国投资公司。IBM中国投资公司是IBM在中国的主要实体之一，成立已有32年，主要管辖IBM在中国的研发业务。 IBM曾在中国部署了多个研发部门，包括IBM中国研究院（CRL）、IBM中国开发中心（CDL）和IBM中
IBM企业级AI开发平台watsonx.ai线DeepSeek R1蒸馏模型

砍柴网 • 21天前

2 月 11 日消息，IBM 日前宣布，DeepSeek-R1 蒸馏版 Llama 3.1 8B 和 Llama 3.3 70B 现已上线 IBM 的企业级 AI 开发平台 watsonx.ai。根据官方介绍，DeepSeek 还借助知识蒸馏技术，利用 R1 模型生成的数据优化了多个 Llama 和 Qwen 变体。
IBM携手欧莱雅推出首个AI模型，助力可持续、数据驱动的化妆品研发

砍柴网 • 1月前

AI赋能高效研发，更好地满足可持续发展和消费者需求北京2025年1月21日 -- 近日，IBM（纽约证券交易所：IBM）与全球领先的化妆品公司欧莱雅（L’Oréal）宣布最新合作成果，即利用 IBM 的生成式人工智能 (Gen AI) 技术和行业专长，发掘化妆品配方数据中隐藏的关键洞察，帮助欧莱雅使用可持续的
全球量子科技竞赛加速升温，谷歌/IBM/微美全息竞相布局技术路径“百花齐放”

砍柴网 • 1月前

作为全球科技领域的研究热点，量子计算的基本计算单元为量子比特，与经典计算机中的比特具有相同的功能，即存储与处理数据，因其强大的计算能力，在攻克复杂计算难题上展现出经典计算机难以企及的优势。量子科技竞赛活跃截止目前，量子计算已被视为人类科技发展的下一个重要突破口，实现了从0到1的巨大
IBM原全球副总裁谢东加入北电数智任CTO | 速途网

速途网 • 2月前

速途网1月2日消息（报道:李楠）今日，北电数智迎来重磅加盟——IBM原全球副总裁、大中华区首席技术官谢东博士正式出任公司首席技术官。顺势而为，加速AI产业生产力建设谢东博士，是中国数字经济和人工智能产业的杰出领军人才，本、硕、博均毕业于清华大学自动化专业，多年来身处技术管理和商业的一线，在技术战略规划、研发体系建设及大
IBM原全球副总裁谢东加入北电数智，担任首席技术官

雷锋网 • 2月前

雷峰网 (公众号：雷峰网) 1月2日消息，IBM原全球副总裁、大中华区首席技术官谢东出任人工智能创新型国企北京电子数智科技有限责任公司（简称“北电数智”）首席技术官。北电数智是北京电控集团旗下专注于原创性、颠覆性、引领性科技创新的人工智能科技企业。业务范围包括AI基础设施、AI核心产
IBM全新光学技术可缩短GPU闲置时间，大幅加快AI模型训练速度

砍柴网 • 2月前

12 月 11 日消息，IBM 宣布开发出一种新的光学技术，能够以光速训练 AI 模型，同时大幅节省能源。该公司表示，通过将这项突破应用于数据中心，训练一个 AI 模型所节省的能源相当于 5000 个美国家庭一年的能源消耗。该公司解释说，虽然数据中心通过光纤电缆与外部世界连接，但内部仍然使用铜线。这些铜线连接着 GPU
26年老员工15页信举报董事长，IBM大中华区：高度重视并彻查

i黑马 • 4月前

10月14日消息，一封长达15页、罗列了IBM大中华区董事长陈旭东在企业管理中存在诸多不当行为的内部信，于近日在网络上引发关注。10月13日，IBM官方确认了这封内部信的存在，并回应：“高度重视并彻底调查任何可能违反公司商业行为准则的行为。”据悉，该信落款的“一个深爱IBM的IBM中国普通员工李红焰”，为IBM大中华区
26年老员工举报董事长，IBM大中华区回应“高度重视并彻底调查”

虎嗅网 • 4月前

一封长达15页、罗列了IBM大中华区董事长陈旭东在企业管理中存在诸多不当行为的内部信，于10月12日在网络上引发关注。10月13日，IBM官方向经济观察网确认了这封内部信的存在，并回应：“高度重视并彻底调查任何可能违反公司商业行为准则的行为。我们不对员工的个人情况进行讨论，将继续专注于服务大中华区的客户。” 经

评论