王恩东院士:释放多元算力价值,计算系统创新是关键
人工智能从5、6年前的 “黑科技”变成了今天的“热科技”,背后离不开算力支撑能力的巨大飞跃。2020年以GPU为代表的AI加速芯片所交付的计算力总和已经超过了通用CPU,预计到2025年,加速芯片所提供的计算力可能超过80%。可以说,
人工智能的规模化发展,算力已经成为决定性的力量,智慧计算是智慧时代的核心生产力。
“人工智能带来指数级增长的算力需求,计算产业正面临着多元化、巨量化、生态离散化交织的趋势与挑战。一方面多样化的智能场景需要多元化的算力,巨量化的模型、数据和应用规模需要巨量的算力,算力已经成为人工智能继续发展的重中之重;另一方面从芯片到算力的转化依然存在巨大鸿沟,多元算力价值并未得到充分释放。如何快速完成多元芯片到计算系统的创新,已经成为推动人工智能产业发展的关键环节。”在10月16日举行的2021人工智能计算大会(AICC2021)上,中国工程院院士、浪潮首席科学家 王恩东 阐释了计算系统创新在计算到智算转变的产业新格局下的重大意义。
多元芯片到算力转化,计算系统创新是关键
随着人工智能在算法领域的不断突破,不同数值精度带来了跨度更大的计算类型,对计算芯片指令集、架构的要求更加细分。图灵奖获得者 John Hennessy和 David Patterson共同发表的 《计算机架构的新黄金时代》 中提出:当摩尔定律不再适用,一种更加以硬件为中心的DSA(Domain Specific Architecture)架构设计会成为主导,这种设计的核心在于针对特定问题或特定领域来定义计算架构。 基于DSA思想设计的AI芯片,在特定AI工作负载上表现出远超通用芯片的处理能力,大大推动了AI芯片的多元化发展。
芯片的多元化为产业AI化的加速提供了重要的产业基础和更加丰富的选择。但是, 芯片从造出来到大规模用起来,还隔着一个巨大的产业鸿沟。 一方面,算力的供给需要构建算力平台,需要解决架构设计、核心部件、高速互联、散热设计等一系列问题。以一台AI服务器研制为例,整个系统需要经过30 多个开发流程,使用150 多种加工制造工艺,对280多个关键过程控制点的质量进行严格把控,并且还要实现与算法框架和AI应用的优化和适配等问题;另一方面,面对大规模AI算力部署,AI算力平台建设又面临高功耗、高电流密度、高总线速率、高系统复杂度的新问题。
“我们能造出性能强大的火箭发动机,但要想造出安全、高性能的运载火箭,还要在循环、控制、结构等很多领域做大量的工作。芯片到计算系统同样如此,需要完成体系结构、信号完整性、散热、可靠性等大量系统性设计工作。” 王恩东院士 用生动形象的比喻, 诠释了芯片到算力转化过程中计算系统创新的价值所在。
以巨量模型为代表的巨量化是AI发展的重大趋势
“人工智能如何发展出像人类具备逻辑、意识和推理的认知能力,是人工智能研究一直在探索的方向。目前来看,通过大规模数据训练超大参数量的巨量模型,被认为是非常有希望实现通用人工智能的一个重要方向。” 王恩东院士 认为, 随着巨量模型的兴起,巨量化已成为未来人工智能发展非常重要的一个趋势。
目前,全球知名的AI领先公司在巨量模型上都予以重兵投入,谷歌、微软、英伟达、浪潮、智源研究院、百度、阿里等公司相继推出了各自的巨量模型。
巨量化的一个核心特征就是模型参数多、训练数据量大。以浪潮人工智能研究院开发的全球最大规模的中文AI巨量模型“源1.0”为例,其参数量高达2457亿,训练数据集规模达到5000GB。相比GPT3模型的1750亿参数量和570GB训练数据集,“源1.0”的参数规模增加了40%,训练数据集规模增加近10倍。
此外,巨量化也表现在模型应用规模大。互联网头部公司的AI开放平台已经吸引了超百万的AI开发者,这些AI开放平台每天承载着数万亿次的调用量,数百万小时的语音识别,超过百亿张图像识别,超过万亿句自然语言理解等等。如此巨量的调用对算力中心的应用支撑能力带来了极大的挑战。
生态离散化制约AI上水平、上规模、上台阶
“很多人会有这样的困惑,人工智能那么好,但是怎么跟我的业务、应用场景结合,想通过AI技术做智能化转型,但是发现没人懂算法,懂模型,也缺少好用的AI开发平台。同时,算法模型那么多,如何找到不同算法在应用中的最优组合?懂这些的人,往往都集中在科研机构或者头部公司。这些地方集中了最优秀的AI人才,但缺少对传统行业的需求场景、业务规律的深入理解。” 王恩东院士 对当前AI从技术到应用面临的困局做了形象的概括。
来自埃森哲的一份调研报告显示, 70%以上有技术的研究机构、科技公司缺需求场景、缺领域知识和数据,70%以上的行业用户缺技术人才、缺AI平台和实践能力。
与此同时, 生态离散化也与AI芯片多元化的发展趋势关系密切。 目前,AI芯片架构五花八门,指令集不同,无法兼容,而面向芯片的编程库又跟芯片绑定,灵活性差。小公司只做了其中一个环节,这造成生态的纵向不通;大公司希望构建封闭的系统,这造成了生态的横向不通。
王恩东院士 认为,目前人工智能的技术链条、产业链条是脱节的,生态离散化已成为制约人工智能技术上水平、应用上规模、产业上台阶的瓶颈所在。
多元化、巨量化、生态化给整个计算产业带来的挑战是空前 的。 “要想释放多元算力价值、促进人工智能创新,一是要重视智算系统的创新,加大人工智能新型基础设施建设,把从技术到应用的链条设计好,从体系结构、芯片设计、系统设计、系统软件、开发环境等各个领域形成既分工明确又协同创新的局面;二是要加快推动开放标准建设,通过统一的、规范的标准,将多元化算力转变为可调度的资源,让算力好用、易用。” 王恩东院士 强调说。
雷锋网
(公众号:雷锋网)
雷锋网版权文章,未经授权禁止转载。详情见。