审视 AI Agent:追捧、落地,和 2024 年的 To B 破局点
今年 4 月份,斯坦福和谷歌的研究者共同创建了一个 " 西部世界小镇(Westworldsimulation)",在这个小镇里,25 个智能体可执行类似人类的日常行为,比如起床后做早餐然后去上班,艺术家作画,作家写作。
这些就是如今人们共同谈论的 "AI Agent 实验 "。而在国内的今年下半年,大模型市场的玩家们,似乎正齐刷刷地转向 AI Agent ——这个清晰可见的 AGI 终局产品。
一组数据显示,截止 11 月中旬,AI Agent 赛道发生融资事件 13 起, 总融资金额约 735 亿人民币, 公司融资均值为 56.54 亿人民币。
而在国外,这一领域亦是火爆。" 至少有 100 个项目正致力于将 AI 代理 商业 化,近 10 万名开发人员正在构建自主 Agent。" 外媒 MattSchlicht 曾表示。
AI Agent 为何如此火爆?
关于 AI Agent 的想象力,一个高赞回答是: " 大语言模型只能编个贪吃蛇,而 AI Agent 可以整出一个王者荣耀。"
成熟的 AI Agent 可以使软件生产大幅降低成本。未来 Coding 工作流中会很多 Agent 临时写成的软件和测试方案,不追求长期的 可复用性,可以随用随抛。 目前一家软件行业巨头动辄上万甚至十万人,有了 AI Agent 之后 研发、交付需要耗费的人力和资金将大幅降低。 而且使得软件可以灵活地解决更多长尾需求。
此外,AI Agent 或将为 LLM 搭建一套框架来进行深度思考和分析,从而做出更复杂和可靠的决策。
总之,就像微软创始人比尔 · 盖茨所说的那样:" 谁能主宰个人助理 Agent,那才是大事。因为你将永远不去搜索网站,不去生产力网站,不去亚马逊。"
值得注意的是,在这种巨大的技术变革下,目前 我们仍没有切身体会到 AI Agent 所带来的红利和变化。 很明显,AI Agent 的发展仍面临一些难题。
一些值得探讨的问题是,国内外 AI Agent 的发展现状如何?AI Agent 落地的关键点是什么?以及 AI Agent 未来是怎样的?
AI Agent 现状,海外 VS 本土
目前,国内一些 科技 公司已经产出了数个知名大模型,因此孕育而生的 Agent 智能体应用也开始逐渐进入大众视野。
例如百度将文心大模型应用到智能搜索、自动驾驶;阿里将通义千问模型应用到高德地图、优酷,盒马等产品。华为将其盘古模型应用到智能气象、语音识别等。
一家叫面壁智能的 创业 也公司推出了他们的 AI Agent 产品 ChatDev,可以在短时间内完成一个软件或者一个小 游戏 的开发,用户所需要做的,只是提供给它一个要求。
值得注意的是, 协同办公领域似乎是巨头们做 AI Agent 的 " 必经之地 "。
例如钉钉魔法棒套件中,从聊天 AI、文档 AI、会议 AI、宜搭 AI、TeambitionAI 等都汇集了钉钉 AI 产品能力;腾讯会议中的 " 会议助理 " 功能提供了一些智能化的支持,如自动总结会议纪要、转录和翻译;百度推出的智能工作平台如流搭载了文心大模型,可以实现智能创作、智能推荐等功能;字节跳动旗下的办公软件飞书宣布推出智能 AI 助手 "MyAI",旨在提升团队协作效率。
曾有 投资 人对 媒体 调侃: " 十个 AI 应用里面,五个办公 Agent,三个 AIGC,还有两成是回春的数字人。" 这不仅是国内 AI Agent 发展的现状,其实从国外一些诸如谷歌、微软等企业也在将 AI Agent 落于协同办公场景。
其实在海外,AI Agent 概念从出现到爆发,已经迈过多个阶段。
在 单一 Agent 阶段,主要是针对不同领域和场景的特定任务, 开发和部署专门的智能体。以 GPTengineer 为例,给它一个需求,其就可以把代码写个大概。
而多 Agent 合作阶段,是 由不同角色的 Agent 自动合作完成复杂的任务。 例如在 MetaGPT 上,如果让其做一个股票分析的工具,它会把这个任务分别翻译给产品经理、架构师、项目经理等 5 个角色,模拟整个的软件开发中所有决策工作流。
不过,随着微软全新工具 AutoGen 的发布,AI Agent 很快翻开了新的篇章。
AutoGen 允许 多个 LLM 智能体通过聊天来解决任务。 LLM 智能体可以扮演各种角色,如程序员、设计师,或者是各种角色的组合,对话过程就把任务解决了。这与 MetaGPT 不同,MetaGPT 的角色模型是被定义好的,而 AutoGen 可以让开发者自己定义 Agent,还可以让他们相互对话。
这是一个新的且富有创造性的 Agent 框架。在 AutoGen 发布的两个星期内,星标量从 390 狂增到 10K,并在 Discord 上吸引了 5000 多名成员。
微软在 AI Agent 的布局较早。2023 年 3 月 Microsoft365Copilot 发布,在当时便提示了一种基于 LLM 的应用开发范式,即 Agent。目前,微软 CopilotStudio 已经支持自定义 ChatGPT 助手无缝集成在 CRM、ERP、OA 等日常办公系统中。
可以发现微软的 AI Agent 能力主要是从其本身业务衍生出来的, AutoGen 更像是一种自身基于业务所打造的能力的外放,这与 OpenAI 并不相同。
OpenAI 开发的 GPTs,以及推出的 GPT-4Turbo 和可定制 AI Agent, 使得每个人都可以打造自己的大模型应用。 诸多业内人士认为,超低的创建门槛和 APP Store 一样的商业模型,会让 OpenAI 快速构建 GPTs 生态。
OpenAI 提供的是基础 Agent 的构建能力,如工具调用、基于知识库文件记忆能力等。这项产品的发布,使得 AI Agent 进入了另外一个新阶段,即为人人都可以打造自己的 Agent 提供了一种可能性。
值得注意的是, 目前海外已经在零售、房地产、旅游、客户服务、人力资源、 金融 、制造业等多个领域出现 AI Agent 架构与产品。
例如零售领域的亚马逊 Alexa、Aktify、Regie.ai 等;房地产领域的 Epique、propertypen、Listingcopy 等;客户服务领域的 Agent4、Ebi.Ai、JasonAI、Aide 等;人力资源领域的 AutonomousHRChatbot、AIInterviewCoach、CareersAI 等。
总体来看, 在 AI Agent 在底层技术、架构以及具体产品应用等方面都较为完善。像 OpenAI、微软、谷歌这类科技巨头,有着先发优势。另一个可以看到的现象是,国内 AI Agent 的深度与广度仍有所差距。
一个值得思考的问题是,Agent 落地的关键是什么?
Agent 落地的关键:模型?行业经验?还是载体?
当前市场上的大多数 Agent,包括 OpenAI 推出的 GPTs,其实只是构建了一个基于特定知识库或专业数据的 Chatbot。这些智能体主要用于进行问答交互,如获取行业资讯、报告等。
然而, 在程序联动和操作方面还有很大的提升空间。 目前,我们还无法直接使用 GPTs 来操作 SAP 或金蝶等 ERP 系统,因为这涉及到 API 的应用、授权、维护以及无 API 管理软件的连接问题。
对于企业而言,如果 GPTs 等 AI 智能体仅用于知识问答,那么其作用将非常有限,就像一个玩具一样,因为它目前还无法深入到企业的业务流程中。
这背后的原因有很多, 包括模型能力、行业经验、场景贴合度等,都会影响 Agent 的能力体现。
AI Agent 需要具备感知环境、做出决策并执行适当行动的能力。 在这些关键步骤中,最重要的是理解输入给 Agent 的内容、进行推理、规划、做出准确决策,并将其转化为可执行的原子动作序列,以实现最终目标。
目前,许多研究利用 LLM 作为 AI Agent 的认知核心,这些模型的发展为完成这一步骤提供了质量保证。因此,基于 GPT-4 的 Agent 表现得更加智能。
但就目前而言, 包括 GPT-4 在内的所有大模型,能力仍需提升。
" 底座模型问题都还很大,AI Agent 真正落地还要等更优秀的模型。" 某位身处大模型技术一线的业内人士对产业家说。
不过针对模型能力不足这一问题,智谱 AI& 清华 KEG 提出了一种对齐 Agent 能力的微调方法 AgentTuning,该方法使用少量数据微调已有模型, 显著激发了模型的 Agent 能力,同时可以保持模型原有的通用能力。
AI Agent 的行业经验对于其落地也至关重要。
" 如果一篇论文提出了某种不同的训练方法,OpenAI 内部的 Slack 上会嗤之以鼻 , 因为这些都是我们玩剩下的。但是当新的 AI Agents 论文出来的时候 , 我们才会认真兴奋的讨论。" 这是 OpenAI 联合创始人 AndrejKarpathy 最近发表的一段讲话。
简而言之, 我们基于大模型能做出什么样的东西,说到底还是要靠行业经验,而这恰是 OpenAI 等一众大模型巨头们所欠缺的。
要知道,企业要引入 AI Agent 进行流程优化,必须经过成本控制、投入预算、实现效率、安全管控等多方面严格及缜密的评估。这就 要求技术供应商提供的必须是平台级解决方案,而不是只针对单一、个别场景需求来提供的 AI Agent 自动化解决方案。
大型企业引入新的 AI 技术不允许任何试错成本,因此技术供应商给出的解决方案必须是开箱即用、具备行业 Know-How 术语和业务规则的真实智能体数字员工。也只有这样的标准化 AI Agent,才能被纳入企业的内部编制中去统一管理和调度。
例如,一个医疗行业的 AI Agent 需要具备医学知识,并能够理解和处理医疗数据。一个金融行业的 AI Agent 需要具备金融知识,并能够理解和处理金融数据。
AI Agent 的落地效果也受限于应用场景。在如出行预订中,得益于丰富的 API 等问题,AI Agent 表现出色。而在如法律助手场景中,由于新知识的频繁出现和 API 的不完善,实际应用面临更多挑战。
这一点,从国内 AI Agent 纷纷生长于协同办公平台就可见一斑。
事实上, 协同办公平台本身具备良好的 API 接口和插件体系,这使得将大模型集成到现有工具中变得更加容易。
此外,许多企业和组织都在使用协同办公软件,这意味着大模型可以迅速覆盖大量的潜在用户。广泛的用户基础可以加速大模型的迭代和优化过程,使其更好地满足用户需求。
还有大量的数据资源助于提高模型的性能,丰富的场景也可以推动大模型技术持续改进。
钉钉、飞书和企业 微信 在作为 Agent 载体时,也各自具有不同的优势。钉钉提供了完善的组织架构管理功能,可以方便地创建、管理和调整团队架构,使得企业能够快速搭建适应其需求的组织结构。
飞书强调实时协作和沟通,支持多人在线编辑文档、共同讨论等功能,有助于团队高效地完成协作任务。其特有的一体化,使得整个办公流程更加标准化。
企业微信与微信互通,这使得其 AI Agent 有可能借助微信庞大的用户数据和应用场景,提供更加个性化和场景化的服务。
站在这个角度来看,国内 AI Agent 扎堆协同办公领域,则变得理所当然。而 找到一个适合 AI Agent 落地的场景或者说载体更为重要。
不过,除了协同办公,还有许多其他载体可能更适合 AI Agent 的落地应用。
例如智能客服、智能助手、RPA、CRM 等。具体来看,在智能客服方面,AI Agent 可以自动回答用户的问题,处理投诉和建议,提高客户满意度和效率。在智能助手方面, 苹果 公司的 Siri、谷歌公司的 GoogleAssistant 和亚马逊公司的 Alexa 都是智能助手的代表。
在智能流程自动化方面,许多企业采用智能流程自动化工具,如 UiPath、BluePrism 等,来自动完成某些特定的业务流程。
在智能 营销 方面,许多营销平台都集成了 AI Agent,如 HubSpot、Salesforce 等。这些平台的 AI Agent 可以通过数据分析和机器学习技术,提供精准的营销建议和预测,帮助企业更好地了解客户需求,提高销售业绩。
总而言之, 模型能力是核心,行业经验是关键,载体是保障。 无论是模型能力还是行业经验抑或是载体都是 AI Agent 落地的关键。 值得注意的是,国内的软件业态,倒逼国内厂商造就了一身定制化、个性化能力,这种能力侧面验证了国内企业在技术落地上的潜力,这将会进一步推动 Agent 的落地。
AI Agent 的终局是什么?
在文章开篇的 " 西部世界小镇(Westworldsimulation)" 里,这些智能体可以与别人和环境交流(互相注意到彼此举动、发起对话或者问候)、反思这些观察结果(形成独特的个人观点)、制定每天的计划。他们拥有自己记忆和目标,会产生可信的个人和涌现的 社交 行为,而不是通过预先设计实现。
例如从用户指定的单一任务开始,即一个 AI Agent 想要举办情人节聚会,AI Agent 们在接下来的时间里会自发的传播邀请、认识新朋友、互相约出参加聚会的日期,并协调在正确的时间一起出现在聚会上。
这是 Agent 项目里具有代表性的应用。 人们之所以为这个项目感到惊讶,是因为 Agent 的交互出现了人类意料之外的现象。 AI Agent 爆发的一段时间,人们普遍认为补齐了大模型短板的 AI Agent 更具备实用性,将是大模型重要落地方向。
随着 Agent 的构建越发简单,Agent 生态的成熟会让 C 端 Agent 出现百花齐放的局面,面对用户,Agent 将会更加接地气,引起新一轮的爆发。
但就目前而言,这一路径的商业化存在诸多问题。拿游戏场景而言,目前收费主要来源于出售游戏装备、皮肤等方式。而 AI Agent 的价值无法体现在这些固有的变现途径上。并且就目前 Agent 落地效果来看, 未出现颠覆性的能力,C 端用户是否会为其买单无法得知。
更值得注意的是,随着让 C 端 Agent 百花齐放,其应用价值方面也随边际效应而无限趋向于更小量级。换言之, AI Agent 能否成为 AI 大模型从 C 端商业化爆发一个最核心应用方向,还需时间验证。且即使未来会成为 C 端商业化爆发一个最核心应用方向,但其 " 寿命 " 并不长。
一个事实是, AI Agent 最终的落脚点或将在 B 端。
比尔盖茨认为,智能体作为下一个平台,将会影响人们使用软件的方式以及软件的编写方式。它更擅长查找信息并为用户总结信息,能够会为用户找到最优惠的价格,将取代搜索网站及电商网站,也将取代文字处理器、电子表格和其它生产力应用程序。并且,现在各自独立的搜索广告、广告社交网络、购物、生产力软件等,都将变成智能体这一项业务。 Agent 会彻底改变应用软件的打开方式。
这些变革来临之前, 相对于 Agent 本身带来的影响,如何构建一个 Agent,是一个更值得关注的问题。
Agent 构建平台上,企业或将可以自己构建自己 RPA、CRM、办公 OA 等一系列管理软件;软件厂商也可以基于此平台构建软件为企业提供服务。
对于身处或准备进入 AI Agent 领域的玩家而言, 找到切入点以及好的商业模式至关重要。
未来 AI Agent 的发展将不仅仅局限于单体智能,而是会扩展到物的智能和机器人的联动。
从群体智能的角度来看,ToC 可能会形成更大的社区化虚拟组织,每个人的 Agent 都能通过虚拟数据连接在一起;而 ToB 则可能形成虚拟的组织和企业,不同的企业和员工都能通过智能体纳入到网络当中。
最终, 整个社会将变成一个巨大的虚实结合的网络,形成 " 智联网 "。在这个网络中,不同的智能体将提供更强的生产力,重新塑造整个生产关系,从而提升整个社会的产能。
因此,AI Agent 的发展前景非常广阔,它们将不断扩展其应用范围和影响力,为未来的社会发展带来巨大的变革和机遇。
时至今日, AI Agent 虽然带来了诸多想象力,却仍旧存在诸多质疑。技术发展之路本就充满质疑与批判,科技变革对于任何一个企业与个体都是一场机遇,关键在于如何把握它。
来源:36氪