一流科技创始人袁进辉博士参加智源大会，共谈AI系统发展趋势

砍柴网 • 3年前扫码分享

6月3日下午,一流科技 OneFlow深度学习框架创始人袁进辉博士亮相2021北京智源大会“AI系统”分论坛,并发表《为什么我们需要重新设计分布式深度学习框架》主题演讲,和与会观众分享深度学习分布式AI系统设计的心得体会。

AI系统是当前人工智能领域极具现实意义与前瞻性的研究热点之一,在创新方法器件、体系架构、优化加速等方面都取得的相当大的进展。本次智源大会AI系统分论坛围绕这一领域的最新学术研究进展和产业界核心工作的设计与实践展开。论坛由清华大学翟季冬教授主持,清华大学计算机系教授胡事民、MindSpore首席架构师金学峰、谷歌高级软件工程师陈德颢、Facebook研究院贾志豪、阿里云研究员林伟、百度主任架构师胡晓光一同参加。

袁进辉博士表示,近来,大规模预训练模型因其在文本生成等应用上优异的表现而备受关注,但通用深度学习框架无法直接支持此类需求,主要原因是大模型面临严峻的“内存墙”的挑战。通用深度学习框架仅支持数据并行,还不能支持大规模预训练模型所需要的模型并行、流水并行等技术,只有高度定制的专用软件系统(如InsightFace, HugeCTR, Megatron-LM, DeepSpeed等)才能满足需求。如何在通用深度学习框架统一、灵活、高效的支持这些技术挑战成为业界研究热点。由此,重新设计一款分布式深度学习框架就显得很有必要了。

一流科技创始人袁进辉博士参加智源大会，共谈AI系统发展趋势

袁进辉博士演讲

一流科技的OneFlow深度学习框架就是袁进辉博士给出的解决方案。OneFlow深度学习框架拥有完全自主知识产权,原生支持超大模型训练,无需深度开发。独创的自动数据模型混合并行、静态调度、去中心化和全链路异步流式执行四大核心技术,使用纯软件技术解决了大数据、大模型、大计算所带来的异构集群分布式横向扩展挑战。

在圆桌论坛环节,在谈及层出不穷的大规模预训练模型给AI系统带来的挑战时,袁进辉博士说:“预训练模型的主要特点是无监督或者弱监督,以前的模型由人工进行数据标注,费事费钱,现在可以用AI模型标注,提高了效率。不过这也意味着训练出来的AI模型数据量级就会更加庞大,更加丰富。而丰富的数据带来的是复杂的规律,模型参数非常大,计算量也非常大,因此预训练模型走向超大模型是个自然的趋势。这也印证了OneFlow从第一行代码开始,就瞄准‘分布式、大模型’的方向是正确的,OneFlow这样的深度学习框架会成为新一代学习框架的代表。”

一流科技创始人袁进辉博士参加智源大会，共谈AI系统发展趋势

右一为袁进辉博士

本次智源大会上发布的“悟道2.0”人工智能模型参数规模为1.75万亿,是目前全球最大的模型,比曾经这一领域的“王者”——GPT-3的参数规模大了10倍,而两者发布的时间仅仅相隔一年左右。毫无疑问,瞄准超“大规模、分布式”的OneFlow深度学习框架与袁进辉博士,将在未来有更大的施展空间。