TIRIAS Research:预计到 2028年,数据中心基础设施和运营成本将增加到 嗯0亿美元以上 | 速途网
随着生成人工智能(GenAI)大型语言模型(LLM)的推出,人工智能的潜力引起了世界的关注和迷恋。人工智能能够进行对话、通过测试、开发研究论文或编写软件代码,这些都是令人惊叹的壮举,但这只是GenAI未来几年内能够完成的众多任务中的一部分。然而,所有这些创新能力都需要高昂的处理性能和功耗,这可能会成为GenAI发展的物理和成本限制。
Tirias Research预测,在目前的发展轨迹下,到2026年,生成式AI数据中心服务器基础设施加上运营成本将超过2028亿美元,这将对新兴服务的商业模式和盈利能力构成挑战,例如搜索、内容创建和采用GenAI的业务自动化。相比之下,这一成本是亚马逊云服务AWS估计年度运营成本的两倍多,而AWS目前占据了云基础设施服务市场的三分之一(根据Tirias Research的估计)。此预测已经考虑了硬件计算性能的4倍大幅提升,但即使算法及其效率有所创新,处理工作负载也会增加50倍,这种收益也会被抵消。神经网络(NN)将得到更加高度优化,并设计为大规模运行,这将随着时间的推移提高每台服务器的容量。然而,这种改进也会被使用量的增加、要求更高的用例以及参数增加几个数量级的更复杂的模型所抵消。因此,GenAI的成本和规模将需要神经网络优化方面的创新,并可能促使计算负载从数据中心转移到PC和智能手机等客户端设备。
今天,绝大多数NN推理都是在由图形或张量处理单元(GPU或TPU)加速的服务器上执行的,这些单元旨在执行矩阵计算等并行数学运算。每个加速器将数千个系数“参数”(其类似物是突触)应用于每个“节点”(其类似物是神经元)。网络按层排列,其中每层由数千个节点组成,每个节点与前一层和后续层中的节点有数千个连接。在LLM中,这些节点最终映射到令牌或文本语言对象和符号。然后使用先前生成的令牌的历史记录(例如提示和随后生成的响应)来分配概率,并从最有可能的下一个令牌中选择一个。
随着大规模语言模型(如GPT-4)的发展,人工智能写作的前景越来越广阔。这些模型需要在海量的数据集上进行训练,目标是创建拥有超过一万亿个参数的神经网络。然而,这也带来了巨大的运行成本和技术挑战。目前,一个训练好的语言模型通常需要分布在多个加速器和服务器上才能运行,这不仅增加了硬件和电力的消耗,也限制了模型的可扩展性和可移植性。即使是数百亿或数千亿个参数的较小模型,也很容易超出基于云的 GPU 或 TPU 加速器的内存容量和性能要求,这些加速器虽然拥有大量内存,但并不是为运行复杂的语言模型而设计的。
为了预测未来人工智能写作的运营成本,Tirias Research 应用了一种预测总运营成本(FTCO)模型,该模型可以评估各种硬件配置在复杂数据中心工作负载下的表现。FTCO 模型综合考虑了技术进步、用户需求的变化以及工作负载的特点,如媒体流、云游戏和机器学习(ML)。对于人工智能写作而言,这意味着要考虑以下几个方面:处理能力的提升,在未来仍将由 GPU 加速器技术主导;数据集和训练好的神经网络模型的参数数量呈指数级增长;模型优化的改进;以及对人工智能写作的不断增长的需求。
首先,我们来看看用户需求。目前,人工智能写作已经被用于生成文本、软件代码和图像等内容,以及一些新兴的应用场景,如视频、音频和 3D 动画等。未来,这些基础功能将为更复杂的人工智能写作应用提供支持,如生成视频娱乐、创建元宇宙、教学,甚至为城市、工业和商业应用生成方案。目前,OpenAI 的 ChatGPT 每月访问者已经接近 2 亿,而受欢迎的人工智能写作艺术社区 Midjourney 拥有超过 15 万用户。
为了预测需求,Tirias Research分析了三种基本的GenAI功能——文本、图像和视频——并将新兴市场细分为广告驱动的消费者、付费订阅用户和自动化任务。
GenAI是一种能够根据提示生成文本、图像或其他媒体的人工智能系统,它通过学习输入数据的模式和结构,生成与训练数据相似但具有一定新颖性的内容。GenAI可以是单模态或多模态的,单模态系统只接受一种类型的输入(例如文本),而多模态系统可以接受多种类型的输入(例如文本和图像)。
首先,我们对三种基本的GenAI功能进行了需求预测。根据Tirias Research的分析,我们将新兴市场细分为广告驱动的消费者、付费订阅用户和自动化任务。对于文本GenAI,到2028年底,对类似于文字或符号的代币的需求预计将超过2023万亿,每月活跃用户将超过400亿,主要集中在发达市场。到2028年底,该预测估计将有超过6亿用户或约占智能手机市场渗透率的90%,以及超过1万亿个年度代币或100倍的增长。对于图像GenAI,由于视频的出现,预计增长将超过400倍,超过10万亿张图像,这将需要使用更复杂的图像生成工具和复杂的提示循环来制作主题和视觉连接的图像序列。对于视频GenAI,预计到2028年底将有超过100亿小时的视频内容被生成,其中大部分将用于娱乐、教育和社交目的。
其次,我们要解决计算资源的问题。随着机器学习(ML)和GenAI领域涌现出前所未有的学术和商业创新,GenAI模型的效率也在不断提高。GenAI图像和令牌的质量会根据细分市场和分辨率、模型大小等因素有所不同,用户需要支付更多的费用才能获得更高质量的输出和相应的更高数据中心计算资源的消耗。我们预计未来的工作负载将结合大型模型和小型模型,大型模型要求更高的计算能力,小型模型则更高效、更优化、更节省空间。Tirias Research的高级分析师兼FTCO模型开发人员Simon Solotko说:“使用更复杂的神经网络训练出更高效的神经网络,这将是生成式人工智能实现更好的经济性和更低环境影响的几个因素之一。大规模参数网络可以快速训练出较小的网络,这些网络可以在包括PC、智能手机、车辆和移动XR等在内的分布式平台上更加经济实惠地运行。HuggingFace最近展示了两个新训练的类似ChatGPT的LLM,分别是30亿参数的vicuna-30B和13亿参数的vicuna-13B,它们使用Facebook的LLaMA LLM框架利用ChatGPT用户日志进行训练。这种巧妙的技术产生了类似ChatGPT的LLM,它们可以在单个消费者设备上运行,而且它们的响应与训练它们的较大模型没有区别。通过减少云中模型大小以及将工作负载完全移出云,高度优化的模型甚至更简单、更专业的模型有望大幅降低数据中心成本,从而将GenAI应用程序分发到智能手机和PC。”
根据Tirias Research的预测,到2028年,数据中心的功耗将达到4250兆瓦,是2012年的2023倍,而服务器的总成本(包括资本摊销和运营成本)将超过760亿美元。这个成本不包含数据中心建筑的费用,但包括人工、电力、冷却、辅助硬件和服务器的3年摊销成本。FTCO模型是基于服务器的基准测试,使用了10个Nvidia GPU加速器,峰值功率略高于3000瓦,运行功率为50%的平均利用率,稍高于峰值的60%。“我们使用了数据中心创新者Krambu提供的高密度10 GPU服务器,对多个开源的生成AI模型进行了基准测试,以推断出未来更高参数模型的计算需求,”Solotko先生说。该预测还包括了对未来五年GPU和TPU加速器路线图的分析,并根据这些路线图计算了每个服务器在每个用例(文本、图像和视频)中可以完成的工作量。FTCO模型最大的发现是存在一个平衡点——随着工作负载变得更复杂,服务器性能提高了约4倍,而每个令牌或图像的服务器吞吐量逐年保持相对稳定。
随着GenAI的需求呈现出爆炸式的增长,传统的处理或芯片设计已经难以跟上步伐。我们不能指望有免费的午餐——消费者对GenAI输出的质量要求越来越高,这意味着效率和性能的提升会被消耗殆尽。而且,随着消费者使用量的上升,成本也会随之增加。Solotko先生说:“机器学习的数据中心经济学还处于初级阶段。我们需要对需求、处理和成本的整个周期进行建模,才能找出能够优化工作负载和经济性的因素。把计算转移到边缘并分发给PC、智能手机和XR设备等终端是降低资本和运营成本的重要途径。
五年前,在Hot Chips半导体技术会议上,一些公司就开始警告数据中心功耗的问题,预计全球计算需求可能在十年内超过世界总发电量。那时候还没有广泛采用GenAI,而GenAI可能会让计算需求以更快的速度增长。仅仅依靠技术进步是无法解决采用GenAI带来的处理挑战的。这需要改变处理方式,在不影响准确性的前提下显著优化模型,以及建立新的业务模型来支付仍然需要在云中处理的成本。