英特尔开源分布式深度学习库BigDL：支持高性能大数据分析

36大数据 • 8年前扫码分享

近日，英特尔开源了一个运行在 Apache Spark 上的分布式深度学习库 BigDL，其可以利用已有的 Spark 集群来运行深度学习计算，并且还能简化从 Hadoop 的大数据集的数据加载。

开源地址>>>

据介绍，在 Xeon 服务器上的测试表明，BigDL 相比于 Caffe、Torch 或 TensorFlow 等开源框架实现了显著的速度提升。其速度可与主流的 GPU 相媲美，而且 BigDL 也能扩展到多达数十个 Xeon 服务器。

BigDL 库支持 Spark 1.5、1.6 和 2.0，并且允许将深度学习嵌入到已有的基于 Spark 的程序中。其中包含了将 Spark RDD(Resilient Distributed Datasets，弹性分布式数据集)转换成 BigDL 定义的 Dataset 的方法，并且也可以直接运用到 Spark ML Pipelines 上。

为了进行模型训练，BigDL 应用了一个同步小批量随机梯度下降(synchronous mini-batch SGD)，该过程在跨多个执行器(executor)的单个 Spark 任务中执行。每一个执行器都执行一个多线程引擎并处理一部分微批量数据(micro-batch data)。在当前的版本中，所有的训练和验证数据都会加载到内存(memory)中。

BigDL 是用 Scala 实现的，并且模仿了 Torch。类似于 Torch，它也提供了一个 Tensor 类，其使用了 Intel MKL 库进行计算。Intel MKL 是英特尔的数学核心函数库(Math Kernel Library)的缩写，其中包含了一系列为计算优化过的历程，其中包括 FFT(快速傅立叶变换)和矩阵乘法等等，这些计算在深度学习模型训练中有广泛的应用。另外受到 Torch 的 nn 包(https://github.com/torch/nn)的启发，BigDL 借鉴了 Torch，提出了 Module 的概念，用于表示单个神经网络层、Table 和 Criterion。

BigDL 还提供了一个 AWS EC2 镜像和一些案例，其中包括：文本分类(使用卷积神经网络)、图像分类、以及将 Torch 或 Caffe 中预训练的模型加载到 Spark 中用于预测计算的方法。目前社区讨论区上大多数用户请求 BigDL 支持 Python，以及开发 MKL-DNN(MKL 的深度学习扩展)。

以下是 BigDL GitHub 项目的 README.md 介绍：

BigDL：在 Apache Spark 上的分布式深度学习

BigDL 是什么?

BigDL 是一个用于 Apache Spark 的分布式深度学习库。使用 BigDL，用户可以像编写标准 Spark 程序一样编写深度学习应用，并且可以直接将其运行在已有的 Spark 或 Hadoop 集群上。BigDL 有哪些优点呢?

丰富的深度学习支持。类似 Torch，BigDL 提供了全面的深度学习支持，包括数值计算(通过 Tensor)和高层面的神经网络;此外，用户还可以使用 BigDL 将预训练的 Caffe 或 Torch 模型加载到 Spark 程序中。

极高的性能。为了实现高性能，BigDL 在每一个 Spark 任务中都使用了 Intel MKL 和多线程编程。从而使得 BigDL 在单节点 Xeon(与主流 GPU 媲美)上能够实现比当前开源的 Caffe、Torch 或 TensorFlow 快几个数量级的表现。

有效的扩展。BigDL 可以利用 Apache Spark(一种超快的分布式数据处理框架)以及同步 SGD 的有效实现和在 Spark 上的 all-reduce 通信来进行有效地扩展，从而可在「大数据规模」上执行数据分析。

为什么选择 BigDL?

如果你满足以下条件，你就应该使用 BigDL 来编写你的深度学习程序：

你想在数据存储(比如以 HDFS、HBase、Hive 等方式)于的同一个大数据(Hadoop/Spark)集群上进行大量数据的分析。

你想为你的大数据(Spark)程序和/或工作流添加深度学习功能(不管是训练还是预测)。

你想使用已有的 Hadoop/Spark 集群来运行你的深度学习应用，然后将其动态地共享给其它工作负载(如 ETL、数据仓库、特征工程、经典机器学习、图分析等等)。

End.

转载请注明来自36大数据（36dsj.com)： 36大数据 » 英特尔开源分布式深度学习库BigDL：支持高性能大数据分析

随意打赏

大数据分析学习

神策 AI 智能分析师:开启数据分析新纪元

砍柴网 • 2分钟前

当前,数字化转型已进入深水区,数据成为企业最核心的战略资产。全球数据总量高速增长,但并非所有企业都能够有效利用这些数据创造价值。这一现状正在被以DeepSeek R1为代表的大语言模型能力突破所改变。大模型凭借其强大的自然语言理解、逻辑推理和知识泛化能力,正在重塑企业数字化管理的每一个环节。神策数据自 201
阿里发布3D数字人模型开源引关注，微美全息多模态技术为AI虚拟人发展“添翼”

砍柴网 • 3分钟前

据了解，阿里巴巴通义宣布开源发布LHM可驱动超写实3D数字人生成模型，可单图秒级生成超写实3D数字人。据悉，只需输入一张图片、即可与这张图片所生成的数字人化身进行低延迟的实时对话，未来，LHM有动作重现、游戏角色生成和虚拟现实探索三大应用方向。 AI助力数字人产业
海信商用显示联合英特尔发布端侧会议领域垂域模型，以AI技术重构会议效率与安全边界

砍柴网 • 2分钟前

4月16日至18日，2025北京InfoComm展在国家会议中心拉开帷幕。海信商用显示携旗下全阵容产品亮相，展位号为EF1-01。现场，海信商用显示联合英特尔共同推出端侧会议领域垂域模型，基于Windows系统与离线端侧方案，支持会中稳定生成会议原文、纪要及问答记录，为政府、央国企等高保密场景提供合规、可靠的智能会议体
智谱将开源32B/9B系列GLM模型

i黑马 • 1天前

据悉，智谱将开源32B/9B系列GLM模型，涵盖基座、推理、沉思模型，均遵循MIT许可协议。目前系列所有模型可以通过“z.ai”访问体验。新版基座模型和推理模型已同步上线智谱MaaS平台。推理模型GLM-Z1-Air/AirX-0414模型推理速度可以做到最高200Tokens/秒，且GLM-Z1-Air-0414的价
CTO 详解理想「系统开源」：希望成为汽车圈的「DeepSeek」

极客公园 • 1天前

理想为什么敢做「第一个吃螃蟹的人」？2025年3月27日，理想汽车董事长兼首席执行官李想宣布，从今年4月底起，将把汽车操作系统「理想星环OS」逐步开源，邀请全球开发者优化与共建生态，这也是全球首家开源汽车操作系统的车企。李想也解释了这个决策背后的考量。他认为，智能汽车需要专用的操作系统，但每个企业都进行闭源开发会导致资
值得买科技成为首批接入智谱GLM Z1系列推理模型企业，推动AI开源生态协同创新发展

砍柴网 • 1天前

4月15日，作为智谱华章的生态合作伙伴，值得买科技受邀成为首批接入GLM Z1系列推理模型的企业。值得买科技将在Agent产品和消费内容场景中进行模型接入，此举将进一步提升平台基于AI的理解能力，并以此提升用户消费决策的效率与体验。此外，作为生态合作伙伴，值得买科技与智谱华章还将携手为AI
Meta开源大模型Llama 4震撼发布，阿里巴巴/微美全息聚焦加速垂直领域AI应用布局

砍柴网 • 2天前

据消息，美国科技巨头Meta推出了开源人工智能模型Llama 4。据介绍，该模型目前有Scout和Maverick两个版本，是Meta迄今为止最先进的模型，也是同类产品中多模态性最强的模型。最新AI大模型Llama 4亮相Meta在声明中表示，Llama 4是一
估值87.5亿美元！英特尔将出售旗下一芯片业务51%股份

砍柴网 • 1天前

4月15日消息，据报道，英特尔公司近日宣布与私募巨头银湖资本达成最终协议，以87.5亿美元估值出售旗下可编程芯片业务Altera 51%的股权。交易完成后，英特尔将保留49%的股份，同时Altera将迎来新任CEO Raghib Hussain接替Sandra Rivera。这笔酝酿已久的交易标志着英特尔战略调整迈出关
DeepSeek领航大模型普惠化浪潮，xAI/微美全息加速开源AI布局打造新格局

砍柴网 • 3天前

DeepSeek 作为当前最受关注的大模型之一，凭借其技术创新正在加速 AI 普惠化进程。根据机构新报告显示，DeepSeek已经成为全球增长最快的AI工具，其每月新增网站访问量已经超过OpenAI的ChatGPT。DeepSeek市场份额全球第三目前，DeepSeek市场份额6.58%，仅次于ChatGPT和Canv
英特尔酷睿Ultra 9 275HX性能实测：最强移动处理器

砍柴网 • 2天前

年初英特尔正式发布酷睿Ultra 200HX系列处理器，从而完成了酷睿Ultra 200家族的布局。其中，酷睿Ultra 9 275HX作为本世代的次旗舰型号，被当前不少游戏本所使用。那么它的实际性能到底怎样？各方面表现又是否让人满意呢？下面我们一起看看。英特尔酷睿Ultra 9
开源数据库 KWDB 随“开放原子校源行”走进重庆大学

砍柴网 • 5天前

4月9日，开放原子校源行Meetup（重庆大学站）在重庆大学虎溪校区成功举办。本次活动由开放原子开源基金会（以下简称“基金会”）主办，浪潮KaiwuDB、KWDB 社区支持，围绕高校开源文化建设、数据库等热点开源技术推广、开源项目共建等话题展开交流，鼓励高校学子积极参与开源贡献。浪潮KaiwuDB 高级研发工程师冷友方
同陷关税战，为何英特尔受压，英伟达却不受影响？

雷锋网 • 5天前

作者｜包永刚编辑｜王亚峰2025年4月2日，美国总统特朗普签署了两项关于所谓“对等关税”的行政令，对中国大陆加征最高达34%的关税。我国迅速出台反制措施。经国务院批准，自2025年4月10日12时01分起，对原产于美国的所有进口商品，在现行关税税率基础上加征34%的关税。在中国继续反制将原产于美国的所有进口商品的加征关
从智能手表到万物互联，开源鸿蒙构建跨行业数字底座新范式

砍柴网 • 6天前

在万物智联的时代浪潮中，智能手表已不仅是时间的载体，更成为人体数据与数字世界交互的“第一入口”。数据显示，2023年中国智能穿戴设备出货量达3700万台，全球市场突破1.6亿台，市场规模持续扩张的背后，却隐藏着行业长期以来的痛点——操作系统碎片化、API标准不统一、应用适配成本高、设备互联门槛高等问题，如同一张无形的网
数字惠民，基于开源鸿蒙的社保终端机赋能智慧政务

砍柴网 • 6天前

在山西省洪洞县大槐树镇社区服务中心，居民孙大姐正在使用一台搭载开源鸿蒙操作系统的智能社保终端机办理养老资格认证。“以前每年认证都要去县里排队，现在家门口一分钟就能办好，太方便了！”孙大姐的喜悦之情溢于言表。这样的便民场景，如今正在山西全省23100个基层服务点同步上演。数字政务新突破：开源鸿蒙技术赋能民生服务2024年
谁是开源界的杠把子？

虎嗅网 • 6天前

咱们都知道了啊，整个AI界被一场“开源核爆”炸得七荤八素。咱们中国公司Deepseek二话不说，把价值百亿的AI模型源代码往全球一扔，美国的AI封锁瞬间被打了个稀巴烂。这操作简直就像是把家里“祖传秘方”直接贴到了大街上。当DeepSeek将代码开源时，硅谷码农们集体PTSD。这场景，像极了1991年8月25日，某个芬兰
2025 年中国新媒体行业发展规模分析新媒体用户规模持续扩大

砍柴网 • 9天前

行业主要上市公司：芒果超媒 ( 300413.SZ ) 、人民网 ( 603000.SH ) 、掌阅科技 ( 603533.SH ) 、中文在线 ( 300364.SZ ) 、快手 -W ( 1024.HK ) 、微博-SW ( 9898.HK ) 、哔哩哔哩 -W ( 9626.H
忆联UH812a获英特尔BKC与PCIe链路双认证，赋能企业级存储解决方案

砍柴网 • 14天前

2024年11月，忆联与英特尔达成技术合作，正式成为英特尔至强®平台固态硬盘合作伙伴，并深度参与英特尔数据中心与人工智能事业部（DCAI）中国区关键组件验证计划。其新一代PCIe 5.0企业级SSD UH812a以零缺陷表现全项通过严苛的英特尔BKC认证标准与PCIe链路稳定性测试，凭借超强兼容性、可靠性及极致性能，为
英特尔CEO陈立武回应拆分非核心业务

i黑马 • 14天前

4月1日，英特尔CEO陈立武在2025年英特尔Vision大会中提到，内部正在讨论剥离一些非核心业务，从而真正专注于英特尔的核心业务。但他并未具体说明英特尔哪些部门不再是公司未来的核心。陈立武表示，“接任CEO是因为看着英特尔挣扎感到痛苦，我们有许多艰巨任务，某些领域未能满足客户期望。”陈立武称，公司需要听取工厂外部潜
英特尔将“Panther Lake”处理器列为2026年产品，预计今年晚些时候投产

砍柴网 • 14天前

4月2日消息，英特尔高级副总裁、CCG事业群负责人Jim Johnson在当地时间昨日的Vision 2025演讲上的幻灯片显示，该企业将下一代客户端处理器“Panther Lake” 认定为2026年产品。Jim Johnson表示他个人对“Panther Lake”感到兴奋，因为这一产品结合了酷睿Ultra 200
微软为英特尔和AMD芯片的Copilot Plus PC提供更多AI功能，含实时字幕等

砍柴网 • 15天前

4月1日消息，微软正将旗下多项人工智能功能全面开放给搭载英特尔和AMD芯片的Copilot Plus PC。此前，这些先进的AI特性主要面向配备高通芯片的同类电脑。此次功能更新中最引人注目的是“实时字幕”（Live Captions）。这项功能能够实时将数十种不同语言的音频翻译成英文字幕。微软早在去年12月就开始在搭载
买英特尔酷睿Ultra 200HX系列AI游戏本首选京东国家补贴立省20%

砍柴网 • 16天前

在“酷睿Ultra 200HX新品分享会”上，英特尔正式发布了酷睿Ultra 200HX系列处理器，介绍了其带来的顶级游戏体验和高效创作生产力，还携手众多品牌带来了多款搭载新品处理器的AI游戏本。目前，七彩虹、微星、雷蛇、机械师、雷神等品牌搭载酷睿Ultra 200HX系列处理器的新款AI
英特尔前CEO格尔辛格：台积电1650亿美元投资无法保证美国重夺半导体领先地位

砍柴网 • 19天前

3 月 28 日消息，台积电本月早些时候宣布，计划增加 1,000 亿美元投资于美国先进半导体制造。此前，台积电公司正在进行 650 亿美元于亚利桑那州凤凰城的先进半导体制造的投资专案，以此为基础，台积电公司在美国的总投资金额预计将达到 1,650 亿美元（IT之家注：现汇率约合 1.2
2025 年中国机器狗行业市场供求分析机器狗产品单价仍较高

砍柴网 • 20天前

行业主要上市公司：建设工业 ( 002265.SZ ) 、晶品特装 ( 688084.SH ) 、中坚科技 ( 002779.SZ ) 、申昊科技 ( 300853.SZ ) 、光格科技 ( 688450.SH ) 、汉王科技 ( 002362.SZ ) 、景业智能 ( 688290
神策数据接入 DeepSeek，AI 赋能数据分析与智能运营

砍柴网 • 1月前

在 AI 技术迅猛发展的浪潮下，神策数据正在加速推进人工智能在数据分析和智能运营领域的深度应用。近日，神策数据宣布全面体验并接入 DeepSeek，为企业客户带来更加智能化、高效的数据分析与智能运营服务。这一举措展现了神策数据在人工智能方向的探索决心。一、神策数据 + AI，探索技术结合新可能 AI 技术的快速
明略科技全域营销分析平台：实时数据智能洞察，AI助力敏捷营销实效评估

砍柴网 • 1月前

Gartner在发布的《2024年中国数据、分析和人工智能技术成熟度曲线》中,提及了复合型AI技术的创新应用潜力,认为这一技术将能够提供更有效的方式以解决更广泛业务问题。特别是在营销技术领域,海量且多元异构的客户数据来源让企业在数据整合、实时分析、快速查询以及深入洞察方面常常感到力不从心。
谷歌Gemini AI向免费版用户开放文件上传/分析功能

砍柴网 • 2月前

2 月 15 日消息，谷歌 Gemini AI 已开始向免费版用户开放文件上传和分析功能，此前该功能仅向 Gemini Advanced 付费用户提供。目前，该功能已在 Gemini 安卓应用和网页版中上线，海外没有订阅 Gemini 的用户现在也可以直接从设备本地或 Google Drive 谷歌云盘中应用程序上传文
有数ChatBI正式接入DeepSeek大模型，让数据分析更加智能高效

砍柴网 • 2月前

近日，随着 DeepSeek 爆火全球，网易数帆展现了敏捷的技术迭代能力，率先完成有数 ChatBI 与 DeepSeek 大模型的快速适配。作为领先的 AI 驱动型数据分析平台，有数 ChatBI 核心能力源于两大创新引擎的深度融合：一是自主研发的 NL2SQL 私有化模型，通过持续微调训练实现企业级场景的高精度语义
2024 年中国数据中台行业需求市场分析多因素驱动需求增长

砍柴网 • 2月前

行业主要上市公司：阿里巴巴 ( 9988.HK ) 、腾讯控股 ( 0700.HK ) 、用友网络 ( 600588.SH ) 、金蝶国际 ( 0268.HK ) 、亚信科技 ( 1675.HK ) 、浪潮数字企业 ( 0596.HK ) 、普元信息 ( 688118.SH ) 、星环科技 (
诸葛io助力城商行打造用户行为分析平台，斩获两项金融数字化大奖

砍柴网 • 3月前

诸葛智能与某城商行强强联合，共同打造「新一代手机银行用户行为分析平台」，该平台以出色的实践方案和卓越的应用效果，成功斩获了两项金融科技领域案例大奖，彰显出在行业内强大的影响力和成熟的技术应用实力。银行标杆案例认可爱分析—金融数字化最佳实践案例为表彰在金融数字化浪
NeuroBlade在亚马逊（Amazon） EC2 F2 实例上加速下一代数据分析

砍柴网 • 3月前

2024年12月26日，中国北京 –数据分析加速领域的领导者NeuroBlade宣布其已经与亚马逊云科技（AWS）最新发布的Amazon Elastic Compute Cloud (Amazon EC2) F2实例实现集成，该实例采用了AMD FPGA与EPYC CPU技术。此次合作通过

评论