生成式 AI 抢滩生死战:全球云计算巨头怎么打
AI 技术掀起了全球云计算巨头之间的新一轮「军备竞赛」,如何构建 AI 生态,成为这些厂商过去一年的核心任务。
得益于基础研究和应用创新的繁荣,国际云计算巨头的 AI 生态建设进展迅速。尽管全球云计算市场增长在过去几年明显放缓,2023 年四季度的财报却显示,受益于 AI 业务的推动, 亚马逊云科技、微软智能云和谷歌智能云的增长速度均有明显提升。 随着 2024 年 AI 应用的加速落地,预计这种增长还将进一步扩大。
云计算领域将迎来新一轮的洗牌,各大巨头纷纷加速部署 AI 大模型。微软继续加强与 OpenAI 的合作,将 AI 技术更深入地整合进 Azure 的各个技术栈;谷歌则投入重金研发自家的大模型,并于近期对组织架构进行了全面调整。
亚马逊云科技也有了新动作。当地时间 4 月 23 日,亚马逊云科技宣布了一系列针对其 AI 开发平台 Bedrock 的重要更新:包括在基础模型层面,宣布支持刚刚发布的超级开源模型 Llama 3,以及自研的 Amazon Titan 图像生成大模型;功能层面上,正式推出合规管理工具 Guardrails、模型测试评估工具 Model Evaluation,升级了智能体开发平台 Bedrock Agent 和知识库 Bedrock Knowledge Base,并预发布新功能 Custom Model Import,支持用户上架本地微调后的开源模型。
从底层的大模型训练和推理基础设施,到中间层的 AI 应用开发工具,再到上层的开箱即用 AI 应用,亚马逊云科技已经构建起一套完整的 AI 生态系统。作为三巨头中唯一一个不过分依赖自研或单一大模型的云计算厂商,亚马逊云科技的 AI 生态投资布局具有极高的借鉴意义。极客公园对此进行了全面的梳理分析。下面,我们将详细探讨这些策略的具体内容及其对整个行业的潜在影响。
亚马逊云科技如何布局生成式 AI 中间层?
在生成式 AI 领域,云计算厂商的战略布局主要集中在 AI 应用开发的三个关键层次: 底层的算力层 ,用于支持基础模型的训练和推理; 中间的工具层 ,基于基础模型构建各种开发工具;以及 顶层的应用层, 即一系列基于基础模型的开箱即用 AI 应用集合。
其中非常关键也是最受关注的是中间工具层 ——中间层是一个相对泛化的概念,不仅包括对基础模型的定制调整,还涵盖构建 AI 应用所需的知识库、开发工具和测试工具等多个方面。
对于云计算平台而言,工具层布局的核心可以细分为三个主要方向: 基础模型的选择池;调整和定制基础模型的能力;以及开发、集成并部署到企业系统中的 AI 应用的能力。 自 2023 年 4 月推出以来,亚马逊云科技的生成式 AI 开发平台 Amazon Bedrock 就一直围绕这三个方向进行投资和布局。
丰富的基础模型池
经过一年多的发展,多数云厂商提供的 AI 开发工具体系逐渐同质化。即便有些平台推出创新功能,其他平台通常也会在几个月内推出类似产品。因此,工具层的竞争焦点逐渐转移到支持的基础模型池上。
加入 Llama 3 和 Amazon Titan Image Generator 等新的基础模型后,Amazon Bedrock 支持的基础模型数量增至 27 个,这些模型来自于 Anthropic、Stability AI、Cohere AI、Meta、Mistral AI、AI21 Labs 以及亚马逊等七家公司。
三大云厂商支持的基础模型对比丨制作:极客公园
如上图所示,极客公园基于官网信息整理了三大云厂商支持的基础模型对比。尽管三大平台都覆盖了基础语言模型、图像生成模型、嵌入模型和语音模型等关键能力,它们的生态布局却各有特色。
首先是微软 Azure 智能云,其生成式 AI 服务最大的特点就是与 OpenAI 的深度绑定 ,提供了一系列基于后者开发的不同功能、规模和价格的基础模型上构建的产品服务。由于 OpenAI 目前在生成式 AI 领域多方面的领先,这种独家合作的模式也就成了微软智能云目前最大的特点与优势。
谷歌云与微软智能云正好相反 ,虽然也支持一部分开源模型或者第三方模型(包括谷歌投资的 Anthropic),但谷歌云主推的还是自研的大模型,包括大语言模型 Gemini 系列、图像生成模型 Imagen 系列和语音转文字的 Chrip 系列模型等。
亚马逊云科技则在二者之间取得了平衡。 比如虽然其也有自研的 Titan 模型,具备文本、嵌入、图像生成等能力,但亚马逊云科技目前主推的却是 40 亿美元重金投资的 Anthropic,其研发的 Claude 系列模型占据了「C 位」,甚至亚马逊云科技自研的 AI 算力芯片都为 Claude 进行了定制和优化。
但亚马逊云科技也没有像微软一样只推 Anthropic 一家公司的模型,还支持了 Llama 系列、Stable Diffusion、Cohere 的 Command 和 Embed、以及 Amazon Titan 等其他第三方和第一方的基础模型。
这些差异体现了三大云平台在大模型这个 AI 应用落地的关键能力上的不同战略和优势。
谷歌云相信自己的技术能力,虽然也通过投资、集成等方式与一些大模型公司合作,但最主要的力量还是集中推动自研大模型;微软在这个技术路线上没有太多储备,所以选择深度合作这个领域最领先的公司,并做好构建 AI 应用必须的基础设施和其他技术工具;亚马逊云科技则是完全的开放平台策略,也就是我们常说的「给淘金者卖铲子」,把大模型这个最关键的环节开发给所有的技术伙伴,主推最好的产品,以客户成功为目标。
未来哪种模型策略更为有效,需要时间来验证。这可能取决于未来究竟是一个超级大模型凭借远超其他模型的智能一枝独秀,还是百花齐放多个不同的模型各有所长。 至少今天来看行业更倾向于使用多模型架构,那么生态繁荣的路线意味着更适应不同的应用场景和需求。
定制模型和集成能力:简化、全面和安全
虽然我们常说基础大模型的能力提升已将 AI 应用开发从「最后 1 公里」推进到「100 米」,但这并不意味着任何公司或个体都能轻易地基于这些模型开发 AI 应用。这正是云计算平台提供中间层服务的重要意义所在。
同时,随着模型能力的增强,可以解决的问题范围扩大,需要利用这些模型解决问题的用户也越来越多。这对提供 AI 应用服务的云计算厂商提出了新的要求: 他们不仅需要适应更多更复杂的场景,还要使服务更加简单易用。
前者要求云计算厂商提供更强的模型定制和微调能力,后者意味着需要更简单易用的集成工具和平台。对此,亚马逊云科技提供了六大核心功能:
Custom Model Import on Amazon Bedrock 丨来自:亚马逊云科技
首先是最近预发布的 用户微调模型上传工具 Custom Model Import。 它支持用户将本地微调后的开源模型(如 Llama,Mistral 及 Flan-T5)上架到 Bedrock 平台,并以托管 API 的方式调用,无需进行复杂的运维工作。未来,该工具还将集成知识库、Agent 等功能。
第二个是此前已经推出的 知识库功能 Knowledge Base。 它允许模型安全地连接到公司内部数据源用于 RAG,以便为聊天机器人和问答系统等用例提供更准确、针对特定上下文的响应。Amazon Bedrock 知识库支持数据库用于向量功能,包括 Amazon OpenSearch、Pinecone 和 Redis Enterprise Cloud 的向量引擎。
Model evaluation on Amazon Bedrock 丨来自:亚马逊云科技
除了微调工具和知识库,亚马逊云科技还提供了模型评估工具 Model evaluation。 该工具用于评估、比较并选择最适合特定应用场景的基础模型。功能包括比较基础模型的性能,以及使用自有数据集获取相应的评估结果等。
以上三者都是用于定制、微调和测试模型,下面两个功能都和开发应用并集成到业务系统相关。
首先是智能体开发工具 Agents for Amazon Bedrock, 也是 Amazon Bedrock 的核心工具之一。极客公园在此前的文章里有过多次介绍,该工具允许生成式 AI 应用能够使用自然语言来执行多步骤的业务任务。其主要功能包括利用 LLM 的强大功能,使用自然语言进行交互和响应;任务拆分和编排;通过动态调用 API 完成任务执行;安全私密地访问客户私有数据;追踪 FM 思维链流程并优化底层 Agent 的提示词工程。
另一个是对象批处理工具 Batch for Amazon Bedrock。 这个工具允许用户在不编写代码的情况下有效执行大量数据的模型推理任务,帮助在大规模推理任务中避免遇到限流问题。
除了便于定制模型和简化应用开发流程,今天 AI 应用开发的另一个不可忽视的问题是确保大模型的安全性。
众所周知,由于大模型训练的局限性和所谓的「幻觉」问题,基于大模型开发 AI 应用可能会引发不符合现实世界政治和法律规则的安全性问题。这些典型问题包括 AI 技术能力的滥用,以及在对话、搜索等功能中出现有害内容的问题。
Guardrails for Amazon Bedrock 丨来自:亚马逊云科技
为此,亚马逊云科技新推出了 AI 应用安全工具 Guardrails for Amazon Bedrock 。如上所示的视频演示,开发者可以通过设定关键词等方式替换有害信息的回答,从而提高模型对不良和有害内容响应方式的一致性。
总的来看,亚马逊云科技的生成式 AI 策略可以总结为:通过开放生态提供丰富的模型选择,并基于过去积累的技术能力提供一个易于使用、功能丰富且足够安全的开放平台。Amazon Bedrock 提供的工具和功能,如自定义模型导入、智能代理开发和批处理能力,都旨在简化和加速 AI 应用的开发过程,同时确保这些应用能安全可靠地部署和运行。
通过提供强大的模型定制能力和综合性的安全措施,亚马逊云科技不仅支持客户解决复杂多变的业务需求,还重视保护用户免受潜在的 AI 风险侵害。这种平衡创新与安全、通用性与定制化的方法,是其在竞争激烈的云计算市场中的一大优势。
基础设施层和应用层
聊完了中间层以后,我们再来聊聊生成式 AI 战略布局的两头: 基础设施层和应用层。
基础设施,也就是底层算力层。今天云计算厂商在 AI 基础设施上的布局大同小异,其核心构成是以英伟达的 GPU 为主和自研 AI 芯片为辅的产业格局。此外,全球算力网络的布局也是这一层的一部分,但这里我们主要关注自研 AI 芯片的发展。
在过去两年中,为了减少对英伟达的依赖并提高计算效率,云厂商加快了自研 AI 芯片的布局。亚马逊云科技也不例外,自 2019 年推出高性能机器学习推理芯片 Inferentia,到 2020 年底推出定制机器学习训练芯片 Trainium,并持续更新。最新的 Trainium 2 支持千亿级甚至万亿级参数规模的模型训练,而 Inferentia 2 则提供更高的算力和性价比。
亚马逊云科技的自研 AI 芯片结合了 SageMaker Hyperpod 和 SageMaker Jumpstart,加速了基础模型的推理与训练。许多 AI 领军企业如 Anthropic、Mistral、stability.ai 和 perplexity 等,都采用了 Trainium 来训练自己的大模型。
在 AI 应用层的差异更加显著。从构建生态的角度来看,第一方原生应用的选择至关重要。云计算平台不仅需要提供能快速解决客户业务问题的通用工具,同时也应避免过度集中化,保护上游应用生态的合作空间,以维持健康的整体生态布局。
亚马逊云科技构建的 AI 应用主要有两个:分别是 企业级生成式 AI 助手 Amazon Q ,以及功能强大的 AI 编程助手 Amazon CodeWhisperer 。
其中,Amazon Q 与微软的 Copilot 类似,支持企业用户定制开发,连接到公司数据和系统。这使得营销人员、项目经理和销售代表等能够利用 Q 进行定制对话、问题解答、内容生成和行动指导,同时确保只访问他们有权查看的信息。
而除了定制之外,与微软把 Copilot 融入 Windows 的做法相似,亚马逊云科技也尝试将 Amazon Q 融入到了其成熟的业务体系中。
首先是亚马逊云科技的 BI 服务 Amazon QuickSight。借助 Amazon Q,客户可以用自然语言构建仪表盘,并轻松地简化决策、同步信息等。例如利用故事生成功能,要求 Amazon Q「描述上个月业务发生的变化,用于向领导层汇报」,就可以在几秒内根据 Amazon QuickSight 中的可用数据创建一段数据驱动的、视觉效果良好的描述,节省了自己总结数据和做 PPT 汇报的时间。
另外在客服、供应链这样的电商场景中,Amazon Q 的融入使得客服人员在无需主管协助的情况下也能满足客户需求,提高客户满意度,减少培训和问题解决时间,降低成本。
而在供应链工具 Amazon Supply Chain 中,Amazon Q 可以基于亚马逊近 30 年的供应链经验,结合大量公开信息回答一系列供应链问题。比如客户可以提问「是什么导致我的发货延迟以及如何加快速度」,Amazon Q 就会分析客户的供应链,并标注大部分订单目前都在东海岸,风暴导致了延误,客户可以选择运往纽约而不是迈阿密来加快交货速度并降低成本。
大模型在对话方面展现出来的潜力,激发了人们的想象空间,但今天的大模型还不能作为解决方案应用在工作中。具体来说,这些聊天应用程序不了解企业的业务、数据、客户、运营或者员工——如员工的工作、他们与什么人交互、应用什么信息以及可以访问什么数据。此外,这些解决方案最初也没有配备企业所需的安全和隐私功能,无法保障员工在日常工作中的安全使用。
企业不得不在构建助手后再将这些功能添加到助手中,这远不如在设计之初就将安全性纳入其中。这就是亚马逊云科技创建 Amazon Q 的原因,帮助客户让每位员工充分发挥生成式 AI 的优势。