英特尔IDF PPT揭秘：高性能计算和深度学习发展的趋势（下）

雷锋网 • 8年前扫码分享

我是创始人李岩：很抱歉！给自己产品做个广告，点击进来看看。

雷锋网 (搜索“雷锋网”公众号关注) 按：在上篇文章中，我们看到了深度学习对计算量的迫切程度。以及介绍了一款Intel为此设计的处理器：代号为KNL（Knights Landing）的高性能CPU Xeon Phi。在下篇我们将为大家展示一些深度学习语言开发者们针对这些需求和新硬件做出的调整和改进。

在上文的末尾提到了著名的开源学习框架Caffe。不过，来自伯克利大学的原始版本的Caffe语言在处理的数据规模太大时需要的时间太长了，并且默认情况下并不支持多节点、并行文件系统。因此不是很擅长超大规模的深度学习运算。不过由于Caffe是开源的，因此理论上任何人都能对其进行自己需要的改进。Caffe的多种功能事实上都有很好的被改进以支持集群并行计算的潜力。而浪潮集团在原版Caffe的基础上加以改进，开发出了第一代支持在KNL上进行丛集并行计算的Caffe版本。支持英特尔的Luster存储器、OPA网络和KNL丛集。

英特尔IDF PPT揭秘：高性能计算和深度学习发展的趋势（下）

浪潮集团将这个改进版的Caffe框架命名为Caffe架构，下图是关于Caffe-MPI在KNL上进行运算时的结构的一些解释。可以看到，其计算流程采用MPI主从模式，使用多个KNL处理器组成节点网络，主节点使用一个KNL，而从节点可以视需求由N个KNL构成，因为使用了专为HPC设计的Lustre文件系统，因此数据吞吐量并不会限制到计算和训练。OPA架构也保证了网络通信的顺畅。软件系统方面，支持Linux/Intel MKL和Mvapich2 。

英特尔IDF PPT揭秘：高性能计算和深度学习发展的趋势（下）

设计框架中的主节点为MPI单进程+多Pthread线程，从节点为MPI多进程，图中展示了整个网络训练的框图。

英特尔IDF PPT揭秘：高性能计算和深度学习发展的趋势（下）

设计中对KNL的最多72个核心可以进行充分利用，主进程可以同时处理三个线程：并行读取和发送数据、权重计算和参数更新、网络间的参数沟通。下图中给出了图示。

英特尔IDF PPT揭秘：高性能计算和深度学习发展的趋势（下）

MPI结构中的从进程的主要处理流程是：从主进程中接收训练数据、发送权重数据、接收新的网络数据、进行前向、后向计算。从节点网络中每一个KNL核代表了一个MPI网络中的从节点。

英特尔IDF PPT揭秘：高性能计算和深度学习发展的趋势（下）

下图中的信息表示，改进版的在KNL丛集上运行的Caffe-MPI架构对原版Caffe进行了多项优化。最终的效果表现是原版的3.78倍。增加KNL处理器的总数时的性能扩展效率高达94.5%

英特尔IDF PPT揭秘：高性能计算和深度学习发展的趋势（下）

而FPGA是另一项在深度学习领域极有潜力的硬件，目前浪潮、Altera和科大讯飞在在线识别领域对FPGA的应用起到了很好的成效。结果表明，FPGA组成的系统在各项指标上都显著优于传统CPU组成的系统。

英特尔IDF PPT揭秘：高性能计算和深度学习发展的趋势（下）

结论是，对于离线学习来说，基于KNL处理器搭建的MPI-Caffe架构可以很好的完成任务。而在线语音平台等在线认知项目则很适合使用FPGA来搭建系统。

英特尔IDF PPT揭秘：高性能计算和深度学习发展的趋势（下）

随意打赏

英特尔计划推出“3D V

砍柴网 • 2分钟前

11 月 16 日消息，众所周知，AMD 已经在数据中心和消费级市场都提供了支持 3D V-Cache 的产品，最新的 R7 9800X3D 处理器目前甚至还会在第三方店铺因为供不应求而涨价。自然而然，人们的注意力也开始转向英特尔，但该公司最近推出的酷睿 Ultra 200S 系列性能低于预期，不禁令人大跌眼镜。根据英
英特尔酷睿Ultra 7 255H现身Geekbench，多核比Ultra 5 225H强约20%

砍柴网 • 18小时前

11 月 15 日消息，搭载新一代英特尔酷睿 Ultra 5 225H 和 Ultra 7 255H 处理器的微星 Summit 16 Al Evo 都已经出现在了 Geekbench 上，IT之家总结如下：Ultra 7 255H：6 P 核 + 8 E 核 + 2 LPE 核，5.1 GHz，单核 2754 分、多
咨询公司创始人：台积电领先英特尔主要是经济问题而非技术问题

雷锋网 • 1天前

过去几年，美国政府对本土是否还具备尖端芯片制造能力感到极度焦虑。媒体上充斥着美国在芯片制造方面落后于人以及不再具备生产尖端芯片能力的报道。这种焦虑一方面源于与中国竞争的地缘政治担忧，另一方面是美国似乎真的失去了生产芯片的能力。D2D咨询创始人Jonathan Goldberg认为，这个问题主要是经济问题而非技术问题。也
Intel显卡驱动减肥500MB 但仍有1.1GB！远超N/A

砍柴网 • 1天前

11月14日消息，Intel今天发布了最新的6297版本显卡驱动，首次将原本分离的二代酷睿Ultra 200系列(Lunar Lake/Arrow Lake)专用驱动，整合在原版驱动中，实现了统一。Lunar Lake发布之后，一直到Arrow Lake发布之后，它们的核显都是单独的一个驱动包，和原有驱动直接打包在一起
X86服务器市场回暖，Q4是英特尔扭转局势的关键

雷锋网 • 2天前

由于英特尔近来并不亮眼的财报成绩，市场上出现了许多唱衰这家芯片巨头的声音。认为英特尔很容易在市场上败下阵来的人，只需要看看Mercury Research（PC组件市场研究机构）发布的市场份额数据及历史趋势就会打消这个念头。近日，Mercury Research公布了2024年第三季度PC组件的市场数据，结合Gartn
英特尔Arrow Lake核显Arc 130T曝光：OpenCL跑分比Arc 140V快24%

砍柴网 • 2天前

11 月 13 日消息，科技媒体 WccfTech 昨日（11 月 12 日）发布博文，报道称在 GeekBench 的 OpenCL 基准测试数据库中，发现了英特尔 Arrow Lake 核显、基于 Xe-LPG + 的 Arc 130T 踪迹。 Arc 130T 简介IT
英特尔计划加大外包规模，将交给台积电更多3nm订单

砍柴网 • 4天前

今年9月，英特尔宣布Arrow Lake将主要通过外部合作伙伴制造，并由英特尔代工服务使用负责封装。随着英特尔放弃采用Intel 20A工艺，台积电几乎完全承担了英特尔这一代消费级产品的制造工作，生产Arrow Lake与Lunar Lake所需要的模块。据TrendForce报道，为了应对AMD和英伟达等竞争对手，英
英特尔壮士断腕？

虎嗅网 • 5天前

在2024年第三季度财报发布后，英特尔首席执行官帕特·基辛格（Pat Gelsinger）表示，近期英特尔所推出的Lunar Lake架构被设计为一个小众、一次性的产品，没有直接继任者。在财报电话会议中，他解释说，采用外部制程节点以及LPDDR5X内存集成到封装中的复杂性，导致了低利润率，
英特尔因第13/14代酷睿处理器不稳定问题，在美国被消费者起诉

砍柴网 • 8天前

11 月 8 日消息，科技媒体 theregister 于 11 月 6 日发布博文，报道称由于 2022 年的第 13 代、2023 年的第 14 代桌面处理器存在缺陷，英特尔公司遭到用户起诉。根据美国加利福尼亚州圣荷西（San Jose）联邦法院披露的文件，原告为马克・
AMD首次在数据中心收入超越Intel，EPYC和Instinct AI加速器功不可没

砍柴网 • 9天前

Intel和AMD近日相继公布了今年第三季度的财报，而在他们的财报中能看到一些很有趣的事情，就是AMD在数据中心领域的收入已经超越了Intel。这确实是一个令人惊讶的结果，因为Intel此前一直长期主导数据中心市场，而现在AMD公布的财报在这领域的收入比Intel还高，表面市场在向AMD倾斜。根据SemiAnalysi

评论