智能体可以商业化了?

虎嗅网  •  扫码分享
我是创始人李岩:很抱歉!给自己产品做个广告,点击进来看看。  

你用智能体吗?类似聊天机器人的东西。


以前,了解一个行业,得看大量数据,查好多资料,现在AI改变了做事、生活的方式;只要问几个问题,它就能帮我整理出清晰的计划。


日常工作生活中,智能体能直接帮我找到答案,很方便。但智能体是最好的AI应用方向吗?我不知道。


不过,百度“李厂长”在百度世界2024大会上提到:


AI智能体时代快要来了,应用爆发点就在我们眼前;智能体可能会成为AI应用的主流,还会迎来爆发式的增长。这个观点引起业界的讨论,也让我对智能体有了更深的认识。


我一直在关注这个领域。我觉得智能体不仅是提供提示、旅行建议、分析文档的工具。它们更像有智慧的专家,能进行深入的交流。


智能体和传统的问答机器不一样,它们能和用户连续对话,一步步深入问题的核心,这是它们的强项。前几天,我就用智能体解决了obsidian插件冲突的问题。


不过,进一步探索中,我发现,智能体还有很多问题需要解决。什么问题呢?


第一个:使用距离。


使用距离?什么意思?别人不会用吗?不是的。准确说,是用户习惯。


智能体不仅是一个聊天机器人,更像一个超级大脑,我们用聊天的方式跟它交流,但要认识到它真的可以解决系统问题。


这个过程,不是简单的一问一答那么简单,是可以让思考更上一层楼,让效率翻一倍。


举个身边的例子:前几天,有个朋友在群里说要做PPT。咱们以前做PPT,基本上两种方法。第一种非常老土,不用AI,自己把内容整理好,结构搭起来,然后动手做,这种方法虽然踏实,但费时费力,效率不高。


第二种呢,用AI帮忙,先给个提示词,再给AI一些背景资料,让它根据提示词和资料来辅助你整理后,再给新的提示词,让它帮我们把内容做得更结构化,最后,用这些内容去做PPT。


这种方法效率提升了,但还缺少点人性化的互动。智能体呢,它更高级,属于第三种方法。


我们可以直接跟它说:接下来有个做PPT的任务,你跟我一起完成。我先给你一些资料,你学习下,然后,学习过程中,给我提出问题,类似于问我要多少页?每页突出什么?


如此循环渐进的像一个合作伙伴,不仅理解了需求,还能提出建设性意见,同时又节省了写提示词的时间,还能达到我们想要的目的。


所以,智能体真的很能干活儿。它是三维思考的。


想用好它,我们得有点项目思维、或者任务思维,这样才能发挥巨大作用;但是,很多人还在用二维思维,你问我答的方式,如果一直这样想,用智能体的速度和效率就上不去。


比起使用距离,第二个关于API的问题要厂商们思考下。


事情是这样:前两天百度上搜比亚迪,看到官网用了智能体,我就跟它说:“帮我找找比亚迪内饰的照片。”结果,你猜怎么着?它给我生成了四张图。


我差点笑出声,这不是搞笑吗?我要生成图吗?当然不是。我更希望它能直接从官网上给我调出照片来。


紧接着,我带着疑问,又试了豆包、腾讯元宝,想让他们帮我P个图。结果都差不多,我发现他们对P图的理解跟我不一样。


我理解的P图是用Photoshop那样去掉背景,但他们好像把P图理解成生成新照片。


这个问题可能出在智能体本身。因为,它们现在还做不到那种专业的修图效果,背后缺少某种插件或能力模块;只有当能调用这些模块时,才能帮我修图。


为什么大公司都做不到智能体处理一整套任务呢?


因为,一个智能体要完成一个复杂的工作流,背后不是靠一个生成模块就能搞定的,它要调动很多数据和应用程序。


打个比方:你去餐厅吃饭,不需要知道厨师是怎么做菜的,菜就端到你面前了。但其实,厨师得用各种材料,比如白菜、辣椒、调料,把它们放到锅里一炒,菜就出来了。


智能体也是这样,得调用各种API,API像菜单一样,集合所有的服务和请求,让不同的软件能够互相交流合作,最后才能达到想要的效果。


现在,很多网站和APP都有自己的API,API不统一,不标准化,这导致智能体没有足够的接口可以用,限制了它的发展。


还有,以前没有统一的底层开发框架,技术团队开发智能体时得从零开始,现在阿里、百度都做了统一开发框架,解决了底层数据处理、模型训练、监控部署的问题,但中小型软件服务商还是不多。


因此,也就限制了其他能力模块的发展。


当然,这也是个好机会,因为如果有人能在细分场景下,利用自己对特定业务场景的了解,开发出一个更符合一线需求的智能体,那就有机会成功。


比如:你在教育赛道很多年,凭借个人对教育技术和孩子学习需求的理解,开发一个智能体,帮孩子提升学习进度和测试成绩,就能赚到钱。


所以,API的问题需要时间和更多中小开发者入局。


能写出这些想法,自然不会错过开发智能体的好机会;开发中,我发现一个第三个问题:能力泛化。


什么意思呢?


起初,我设计占卜师智能体,目的是让它进行占卜。没想到,它不仅能占卜,还能算命,甚至能总结文章。


我以为提示词没写清楚。后来,试了其他智能体,发现也有类似情况。


为什么会这样?


我认为智能体知识可以分为两部分:一部分通用知识,像我们学的基础知识,这是智能体必须掌握的。


另一部分则是针对特定行业的,随着行业人士的使用,智能体也能跟着学习。这有点像能力的二八法则:80%的能力是基础的,剩下20%在实际工作中边干边学。


实际上,过去一年,大厂都在训练大型语言模型,这些大模型的本质,是通过海量数据训练得到的,目的是生成最有可能的回答,而不是专注于特定能力或任务。


这种泛化能力,让智能体在多任务中表现不错,因为这些任务都涉及语言处理和推理,这意味着,要进行任务微调,就必须做任务分离。


而开发多个智能体,是一种过程性的解决方案。


你想想看,各大平台现在都在尝试将智能体做垂直细分,专注于特定领域或任务,比如法律助手、医疗问诊、学习辅助等。


这种趋势也表明,未来肯定会有更多人根据不同需求,选择和使用专门化的智能体,推动AI更深入地融入日常生活和工作场景。这是第一点。


第二点,目前市面上缺少专业的智能体开发者,能培养的也很少,我想去,居然还找不到;要不,厂牌们考虑下开个班吧?


现在的开发者,很多是对AI感兴趣的人,他们在设计智能体时,主要是用提示词来引导模型的行为。


但是,提示词这种东西,像个软性的约束,并不能真正限制智能体能干什么,这种设计方式,很容易让智能体“越界”。


你想想看,我设计一个占卜师智能体,占卜本身可能“顺便”会提供点儿心理咨询,甚至还会推荐人生规划;这种能力的模糊性,不是我不愿意解决,而是目前工具和方法还不够成熟,我很难精准控制。


就像禅宗里说的:“少即是多 (Less is more) ”。少比多难,少不是减少,是聚焦,得用技术聚焦。


还有一点:现在智能体缺少明确场景。这听起来像废话。但你有没有想过,这些场景究竟从哪里来?


钉钉总裁不穷说过一句话:“AI得从下面开始,先让懂行的人用起来。”


只有对AI有需求、愿意尝试的人开始用了,才能慢慢积累出真正有用的场景,找到AI真正的价值。


我觉得,就算智能体慢慢融入了医疗、法律、金融这些领域,它还是停留在“看起来懂,但不专业”的阶段。


因为现在大多数人还是把智能体当成“聊天工具”,聊天工具是什么?即弄个董宇辉文案、搞个妈妈式唠叨,这不能帮助行业。


如果这种情况一直这样下去,最后的结果就是,大家还是只把它当聊天工具玩,没法真正用到工作中;这样的话,别说提高行业效率了,这不仅是对智能体的浪费,更是错过了行业变革的机会。


所以,一个简单的结论即:我们要思考清楚,哪类智能体做工具?哪类做平台?需要什么样的开发者来开发智能体?


这三个问题回答清楚,智能体才会在场景中发挥作用。


看到这,别误会,我不是说通用智能体不行,确实有它们的好处。


垂直单一的智能体可能比较局限,但能处理多种任务处理就厉害了,因为能同时搞定好几个工作流程,不仅速度快,而且思考的过程也更清楚、更靠谱。


而且,这些智能体还能处理各种类型数据,在很多场景下都能派上用场。


在公司里,这种能干多种事情的智能体,已经开始发挥作用了,比如:RPA技术,现在已经被看作是智能体的一个工具。


这种通用智能体在营销、生产管理、运营自动化这些地方也有很多可能。


最近特别火的一个话题就是:智能体在手机界面上的应用。大家都觉得,将来它们会成为重要的用户界面入口,就像人一样,能自动操作界面,根据需要自动用APP完成任务。


比如:腾讯的AppAgent和阿里的MobileAgent项目,或者手机厂商发布会上展示的“一句话点单”的功能,这些都是很好的例子。


我相信,在电脑、手机、自动驾驶这些领域,将来这种多功能的智能体会有很多应用场景,比如:接管系统级操作,或者用通用智能体管理子智能体等等。


我也看到,很多智能体在一些特定场景中的开发和工程化潜力,但是,话说回来,智能体的使用和能不能商业化,是两回事。


你想想看,如果一个公司用了被随意开发的智能体,然后问它另一个公司的情况,它也回答了,岂不是很荒谬?


所以,不能光看宏观叙事,还是要扎根行业去思考,希望大公司能多想想行业的实际问题。


比如:智能体怎么帮一个职员做决定,怎么规划某个工作流程,怎么提供真正管用的解决方案。


我说的行业,更准确地是行业里在用、想用智能体的人,因为只有这些人,才能会不断给智能体特定知识;换句话说:智能体学习了他们的东西,它才会进步。


你觉得呢?‍‍‍‍‍‍‍‍‍‍‍‍‍‍


本文来自微信公众号: 王智远 ,作者:王智远

随意打赏

提交建议
微信扫一扫,分享给好友吧。