“闻说双飞桨,翩然下广津” PaddlePaddle发布中文名“飞桨”
深度学习正在迎来它的高光时刻。4月23日,首届WAVE SUMMIT 2019深度学习开发者峰会在北京举办,过千位“慕名而来”的开发者与AI专家、学者一道见证了国内真正意义上第一场深度学习开发者盛会。
会上,百度高级副总裁、深度学习技术及应用国家工程实验室主任王海峰表示,“深度学习推动人工智能进入工业大生产阶段,而深度学习框架是智能时代的操作系统。”他认为,深度学习技术已经具备了很强的通用性,正在推动人工智能进入工业大生产阶段,呈现出标准化、自动化和模块化的特点。深度学习框架承上启下,下接芯片、大型计算机系统,上承各种业务模型、行业应用,是智能时代的操作系统。
PaddlePaddle全景图首曝光 11项新特性及服务重磅发布
作为最早研究深度学习技术的公司之一,百度早在2013年即设立全球首个深度学习研究院。经过沉淀与积累,2016年百度PaddlePaddle 正式开源,成为中国首个也是目前国内唯一开源开放、功能完备的端到端深度学习平台。2017年,由国家发改委批复,百度牵头筹建了国内唯一的深度学习技术及应用国家工程实验室。百度在深度学习领域的实力可见一斑。
核心技术,是国之重器。开源三年的PaddlePaddle在深度学习开发者峰会上交出斐然的“成绩单”。
百度深度学习技术平台部总监马艳军首次对外公布了PaddlePaddle全景图,集核心框架、工具组件和服务平台为一体的端到端开源深度学习平台,囊括支持面向真实场景应用、达到工业级应用效果的模型,针对大规模数据场景的分布式训练能力、支持多种异构硬件的高速推理引擎等。此次,重磅发布11项新特性及服务,包含PaddleNLP、视频识别工具集、Paddle Serving、PaddleSlim、AutoDL Design等多种深度学习开发、训练、预测环节的“硬通货”。现场还宣布“1亿元”AI Studio算力支持计划,首次公布PaddlePaddle中文名“飞桨”,出自于朱熹的两句诗“闻说双飞桨,翩然下广津”。
马艳军表示,“百度为大家提供的不仅是深度学习框架,而是提供一整套紧密关联、灵活组合的完整工具组件和服务平台,全面覆盖初学者、零算法基础工程师、算法工程师、研究者,平台功能覆盖更加完备,覆盖的用户更全面,各部分的打通更加顺畅。”
首先,核心框架层开放了从开发到训练,再到预测的一整套完整能力。开发环节, PaddlePaddle已开源60多个经过真实业务场景验证的官方模型,涵盖视觉、NLP、推荐等 AI核心技术领域,成为官方支持模型最多的深度学习平台。全新发布PaddleCV及业界首个视频识别工具集。面向工业应用的中文 NLP 工具集 PaddleNLP,将自然语言处理领域的多种模型用一套共享骨架代码实现,可减少开发者在开发过程中的重复工作。拥有当前业内效果最好的中⽂语义表示模型和基于用户大数据训练的应用任务模型,模型源于产业实践,达到工业级的应用效果。
首次重磅发布的视频识别工具集,为开发者提供解决视频理解、视频编辑、视频生成等一系列任务。它开放了7个视频分类经典模型,这些模型共享一套配置文件,并且在数据的读取、评估等方面共享一套代码,覆盖视频识别方向的主流领先模型,还可实现一键式的高效配置来做训练和预测。
训练环节,大规模分布式训练主要从三方面实现了升级。首先多机多卡的全面高效支持,提升了速度;其次是在CPU的应用场景方面,针对大规模稀疏特征设计并开放了大规模稀疏参数服务器,开发者可轻松下载相关镜像使用;大规模分布式训练支持在各种容器上高速运行,同时支持在K8S生态下使用PaddlePaddle进行训练。
数据处理方面,优化分布式IO,增加远程文件系统流式读取能力。GPU多机多卡同步训练通过增加稀疏通信能力提升带宽不敏感训练能力,在低配网络带宽网络环境下,例如10G网络下,同步训练可提速10倍。
开发和训练后,将模型部署到各种应用场景下是非常关键的一个步骤。部署环节需要高速的推理引擎,在此基础上,为了部署在更多的硬件上往往需要做模型压缩,在真正使用时,还需要软硬一体能力的支持。基于此,PaddlePaddle准备了完整的端到端的全流程部署方案,并将持续扩展对各类硬件的支持。基于多硬件的支持,PaddlePaddle提供性能全面领先的底层加速库和推理引擎,全新发布Paddle Serving支持服务器端的快速部署。不仅如此,模型体积压缩库PaddleSlim也是为开发者准备的“重磅惊喜”,针对体积已经很小的MobileNet模型,它仍能在模型效果不损失的前提下实现70%以上的体积压缩。
灵活、高效、易用是PaddlePaddle大受欢迎的重要原因。在多项全新发布及重磅升级中,工具组件方面显得尤为突出。此次,PaddlePaddle不仅重磅开源AutoDL Design、升级PARL,并首次提出并发布预训练一站式管理工具PaddleHub。
传统神经网络的结构设计是由人根据经验设计,并不断的进行调参训练获得最优结果,这个过程较为复杂和费时费力。AutoDL Design自动化网络结构设计是用深度学习设计深度学习,目前已经全面超过人类专家设计的网络效果。升级后的强化学习工具PARL,在算法的覆盖、高性能通讯以及并行的训练方面做了大量支持和扩展。简明易用的预训练模型管理工具PaddleHub,提供包括预训练模型管理、命令行一键式使用和迁移学习三大功能,10行代码即可让开发者完成模型迁移。
百度豪掷1亿元免费算力 为开发者破除算力桎梏
大数据、大模型、大算力是深度学习发展的必备因素,算力的重要性不言而喻。百度豪掷1亿元免费算力,力为普通开发者破除算力桎梏。马艳军宣布,百度一站式开发平台AI Studio重磅推出算力支持计划,“我们提供总计1亿元免费算力,助力开发者成功”。据介绍,免费算力主要以两种模式提供,第一种是一人一卡模式,V100的训练卡包括16G的显存,最高2T的存储空间。另外一种是远程集群模式,PaddlePaddle提供高性能集群,供开发者免费使用。
深度学习的标准化、自动化、模块化推动人工智能进入工业大生产阶段,也进一步为产业升级提供了强有力的“助攻”。基于PaddlePaddle,北京林业大学研发的面向信息素诱捕器的智能虫情监测系统,研究对象是红脂大小蠹。这套检测系统的应用大幅降低虫情监测的人力成本,以往人工检测需要一周的工作量,现在用自动检测一小时内就能处理完。中科院遥感与数字地球研究所应用PaddlePaddle Faster R-CNN模型,结合特征提取网络VGG16及区域建议网络(Region Proposal Network,RPN),以及融合attention机制的Deeplab v3网络对遥感影像进行目标检测与语义分割,从而实现对重大工程目标与建设用地变化图斑的提取。辅助国家进行重大工程用地扩张与变化情况的监测工作,并对土地资源的利用进行有效管理与控制。
深度学习发展一方面是技术的不断创新突破,另一方面需要建设完整健康的生态。高校方面,百度提供深度学习师资培训,并通过协同育人专项基金以及AI Studio教育版,培育深度学习领域高校人才;在开发者社区中,PaddlePaddle提供免费在线课程、免费算力支持,以及不间断的赛事互动,持续推动深度学习技术发展;企业方面,不仅举办黄埔学院,还发布了“AI快车道”计划以及AI技术的生态扶持计划,预计深度扶植1000家AI企业。
此次峰会的顶级赞助商英特尔是芯片领域的翘楚,一直与百度有着良好密切合作。论坛现场英特尔中国研究院认知计算实验室研究总监陈玉荣表示,正如大家所言,深度学习的成功与大数据密切相关,目前有许多研究主要是依靠深度学习、机器学习算法来发现或标注数据,有助于开发者解决数据方面的挑战。
此外,本次大会百度还为开发者们精心打造了属于他们的深度学习“江湖”,不但有传授深度学习“武功秘籍”的公开课,还有“实战过招”的开发者市集,一次性满足深度学习开发者从“心法招式”到“当面切磋”的需求。
这一场过千位开发者组成的深度学习开发者峰会,必将掀起国内深度学习史无前例的浪潮,加速深度学习技术的发展和产业应用,必将成为历史上不可磨灭的一笔。