多模态大模型迸发，创业机会和挑战在哪？丨GAIR 2023

雷锋网 • 1年前扫码分享

自ChatGPT发布之后，多模态大模型赛道备受各界关注，似乎也给了跨境电商领域一剂强心剂。

多模态大模型作为最前沿的AI技术，在跨境电商领域，发挥怎样的应用前景？对于新一代创业者而言，他们又有怎样的创业机会和挑战？

近日，由 GAIR 研究院、雷峰网 (公众号：雷峰网) 、世界科技出版社、科特勒咨询集团联合主办的第七届 GAIR 全球人工智能与机器人大会，在新加坡乌节大酒店圆满结束。

而在会议多模态大模型与跨境电商的分论坛上，由Mamentum Works 创始人兼首席执行官李江玕主持，Meta人工智能研究专家曹晟、人工智能专家张伟、腾讯海外游戏发行算法中心主任郎君齐聚一堂，一同分享多模态大模型下的创业机会。

在圆桌论坛上，郎君表示，如果创业可能从两个方面下手，一是从现有的大公司的流程里发现大公司可能做得不够好的一些点，大公司又不太愿意投入一个很专注的团队专门干的这些事情，自己创业就把这些事做了。二是如果我们没有在大厂工作，可以观察自己的生活周边有没有一些相对好的需求，可以用技术的方式去解决，或者用商业的方式解决，或者用产品的方式解决。这几个方面，只要找到一个需求点就可以去突破。

郎君觉得在AIGC领域创业，这波还是会有很多做法。现在ChatGPT已经开放了，大家用起来也很方便，也有很多的API接入技术可以使用，创业成本门槛已经比以前低了很多。关键是要么从需求出发延伸性地做创新，要么就是从这个应用上继续加一块砖也能产生巨大商业价值。

张伟则思考了两条路，第一条路是在学术界中沿着这个方向做一些基础的研究，跟政府或者是国内的一些高校合作做一些更前端的研究，类似跟机器人的结合等。第二条路是创业，基于ChatGPT做一些应用，比如数字人，这个方向有挑战，但发展得好也是一条新的商业赛道。

曹晟直言，企业的周期越来越短，大家可以去接受这个事实，也不用去焦虑。首先有很多机会，同时也有很多竞争对手，第三有很多是可以被颠覆，第四要看你自己也可以颠覆的东西。曹晟觉得，大家只要结合这种模式，都是有机会的。

多模态大模型迸发，创业机会和挑战在哪？丨GAIR 2023

以下为圆桌讨论的内容，雷峰网做了不改变原意的整理和编辑：

李江玕（主持人）： 从去年11月ChatGPT发布出来到现在，整个市场发生很多变化，大模型能力也在不断的迭代。在过去的8~9个月的时间，对很多人来说好像又变成了无限的可能，但无限的可能就得做市场，你得探索他们的东西。各位在过去的这个时间经历了怎么样的心路历程？

郎君： 去年11月ChatGPT横空出世，刚开始我们的算法中心，有些同学很积极的去探索、研究，有些同学则比较保守，说这东西跟我没关系，还有一部分人是处于观望的状态，我是后者。当时我觉得它离我们比较远，那是聊天的语言模型，跟我们做的视频、音频等技术关系不大，但是再过两个月之后就发现ChatGPT开始火爆了，一下子就把我们的视野全部打开了，大家可以做的事情越来越多。我们在我们场景里面做视频用的特别多，所以我们就开始深入研究，把我们能够服务的ToB、ToC客户全部扫描了一遍看看能做什么，后来再从某些方向快速地去试错。

内部也是分很多种声音，但大家整体都是希望用ChatGPT真正地降本增效。而且让你试错的时间并不多，可能就是3个月的时间，能做就做下去，做不成可能就要撤。但是我们确实还是摸索出了一些路线出来，继续去尝试，现在看起来效果不错。

比如，我们做了视频的自动生成、游戏文案的自动生成、大规模的情报分析，以及关于用户运营的一些技术，包括图像的变换，一些虚拟人的技术，这方面做的还是比较多的。有些是我们用ChatGPT直接做，有些是在ChatGPT上面加一层LangChain的方式做一个相关的工作。这方面现在比较成熟，而且Lang chain现在也用得比较稳定了。

李江玕（主持人）： 从一个东西想做，到这个东西落地，你是不是感觉这些新的应用、新的场景、思路比以前快。

郎君： 对，我感觉比较快的原因有两个，第一个是ChatGPT，它人人可用，它不像过去的元宇宙，大家知道云宇宙就是一个云里雾里的概念，跟我没关系，只能看看这个Demo而已。现在ChatGPT人人都可以去尝试和探索，我就可以成为用户了。

这其实启发了很多人的一些想象力，包括投资资本界也是这样看的，一下子就暴涨，然后现在开始出现一个冷静期，所以在渐渐的衰弱，但还是在反弹。所以我觉得确实很好用，而且现在这种AIGC开源社区非常的发达，不管ChatGPT还是其他领域里的核心工具，特别有一段时间每天都有海量的论文在爆发，跟都跟不过来，就很痛苦了，现在相对好一点，但还是很不容易。这是我们的一些情况。

张伟： 我自己也是做自然语言处理的，我读博士也是读自然语言处理的，刚看到ChatGPT的时候我自己也体验了一下，非常吃惊，感觉这个好像把我们以前学的那些东西都颠覆了，包含我们做的那些句法分析、信息提取的工作。

我们现在还面临着挑战，主要分两部分，一方面针对自然语言理解，业务的特定模型表现不是很好，另一方面LLM大模型，针对业务场景，它的精力达不到我们的业务需求。但是你要真正到一个具体的商业问题上，还是有点Gap。因此我们需要做一些针对特定任务的小模型，然后再在一些大模型底座上去做再训练。但是像电商这种场景，你首先要投入，而我又不是做一个云服务，这里面你就得想清楚它的应用在哪里。

这种我们就刚开始讲了两个点，一个点是现在已经有AI应用，现在的模型已经还可以了，然后你换它的成本也很高。第二个是，做完之后它能不能跟我们现在这个业务匹配，其实也有一定分享，因为过去的系统已经优化很长时间了。LLM大模型如果在General的NLP Topic上，真的要对标，其实也是有优有劣了。但是你如果再加一层业务含义，这个不确定性有点高。

所以这里面就会对于我们来说有两个思路，一个思路是有没有一个应用可以驱动做这个事情，第二个是这个应用驱动完了之后，其他的那些应用是不是可以重写。

曹晟： 我的心路历程大致可以用一条比较出名的曲线形容，Gartner Hype Cycle。每次新的技术出来，大家的预期会非常高且不合理，然后到对于不能兑现的预期迅速失望，然后再回归到合理预期并产品化Plateau的一个过程。我感觉我已经过了这个高点和这个低点，然后到了这个Plateau的过程。现在这个股票市场可能是刚刚过了高点，最近市场的反应有一点cool down的。

我是去年开始关注这个领域，一开始也是对它的涌现能力和AGI能力感到非常震惊，也问了很多身边的大佬，有华人和非华人，大家都说它就像互联网刚出来的时候，甚至比互联网那会还称得上是几十年一遇的机会，所以当时是非常optimistic on this。后来在实际中做research和开发的时候，就发现非常难以在短时间做完美的产品化、商业化落地，特别是ToB或对accuracy、safety要求很高的产品，这方面不能保证这个产品落地。比如说金融领域现在还是slow to adopt，因为金融对于accuracy的要求太高了。多模态大模型这个长期trend还是在的，我也是一个AI的believer在这个情况下面，心态上面要更落地。

在Generative AI 的时代，首先大家开发的思路会转变，因为大家是从一个面向deterministic programming 过程，到面向一个 probability based 的过程，大家要去习惯这种转变，很多事情不是绝对能去杜绝，或者是绝对能去证明。而是说在一个概率上面去收敛，或者概率上面去杜绝一个事情。第二，很多时候虽然大模型的能力非常强，但很多时候卡脖子并不在这上面，或者说还有很多绕过模型本身的方法，能更好的Boost 整个application的ROI。

大家可以关注一下未来几个月内初创公司基于拿大模型做的一些产品应用，因为他们现在被赋予了用llama 2整个模型创新的能力。初创公司非常能拼搏一些新的idea，他们可以更好地找到瓶颈的地方到底在哪里，这些信息我们可以反馈到整个生态的搭建和商业化思考。

李江玕（主持人）： 你刚才提到那个银行，我们自己的一个东南亚银行客户，他们内部已经有十几个应用在做了。但他们做的事情第一件事情就是说这个东西能不能本地化，本地化部署了之后，然后再做一些提效类，包括客服的抵消，内部开发人员抵消，但是那个核心系统还是没有碰到。

曹晟： 核心没有能看到。金融行业比较特殊，它的商业化上限理论上特别高，但是往往现在技术方面还是在做的 cost reduction 上面其实并没有真正把 AI 技术运用到金融上面赚钱那一块，因为就是金融的it还是很小一块。再就是，大家对于这件事情的看法也有不同，所以大家可能一开始还是在做sentiment scoring的系统，因为这个可能更好的把它转换成一个trading signal。

但是在我看来，sentiment score这个东西很久以前就一直在做，我觉得只做sentiment score，并没有很好的leverage大模型的能力，可能只用了一小部分，但是对于别的人可能更想看到这个东西能带来实际经济上的利益，同时他本身的it人才又不像那个大厂那么多，这还是比较有挑战的。

李江玕（主持人）： 再问一个简单的补充问题，你在硅谷里就直接请教了一些华人前辈，也有一些白人，这两派对这个技术的看法，会有一些系统的差异？

曹晟： 华人和非华人在这上面的看法出奇的一致，都是非常看好。而且他们觉得这件事情肯定是一个revolutionary的事情。有些人的看法倒不是华人和非华人之间，而是看他之前从事的那个领域，现在是有一个AI security比较新的领域。但以前做security的那些大佬，他可能会对这个东西的suspicion会更多一些。他倒不是说质疑它的能力，而是说质疑在这个情况下面，人类可能不能很好地用这样的Tool。

最简单的例子就是，它会带来更多的一些不能 debug做的一些风险，或者说传统的一些practice在这个模型下面可能就失效，然后可能大家还没有准备好。比如说现很多不会写代码的人用大语言模型，或者说没有系统受过这方面训练的人用GPT去写代码，这是一件非常危险的事情，因为可能他不知道自己到底写出来什么东西，然后有很多security的risk暴露出来，大致上是这样的一个差别。

李江玕（主持人）： 跟这个相关的问题，各位都在比较大厂的架构下面工作。这一块的话，你在大厂可以投入很多资源去研究和尝试这种东西。我现在做的是中小企业，在这个方面不管是研究也好，还是感到焦虑也好，这方面大家有什么建议？在自己没有什么资源的情况下，变化又这么大，有些场景可能对于创业公司来说的话，我没抓住，这个可能就是生与死的挑战，大家在这点上面有没有一些思考和一些建议？我们应该做些什么事情？或者说应该怎么去面对这个问题？

张伟： ChatGPT出来之后，我发现还挺不错的。我自己也在思考，如果我不是在大厂，我要自己做这个事情，如果要去做个创业公司，怎么做啊？

我自己思考了三条路，第一条路是在学术界中沿着这个方向做一些基础的研究，跟政府或者是国内的一些高校合作做一些更前端的研究，类似跟机器人的结合等。第二条路是自己创业，基于ChatGPT做一些应用，比如数字人，这个方向有挑战，但发展得好也是一条新的商业赛道。第三个思路是在一个大公司里面的创业团队，做一些应用。

郎君： ChatGPT刚出来的时候，我们团队并没有很充沛的资源，自由去探索和发挥，我们一方面要把现有的工作做好，然后用业余时间摸索数据，有些压力也是给咱们特别新的意义。再说创业，因为我自己还没有创业，我一直在想我要创业能干什么？这两天在会场碰到很多以前的老朋友，很多都是创业者，有很多的信心，但我不一定要去创业，但是我如果创业可能从这两个方面下手，从现有的大公司的流程里面发现一些大公司可能做的不够好的一些点，但大公司又不太愿意投入一个很专注的团队专门干这些事情。那你去创业把这些事做了，用长尾效应的方式去收割所有大厂做的不好的点，这是一种常规的思路。

第二种思路是，如果我们没有在大厂里面工作，你可以去观察你的生活，像巴菲特怎么买股票？可口可乐为什么不爱买？他生活中需要喝的就好，喝他就买了。从这种思路的话，可以观察自己的生活周边有没有一些相对好的需求，可以用技术的方式去解决，或者用商业的方式解决，或者用产品的方式解决。这几个方面，只要找到一个需求点就可以去突破。很多东西不一定是说我要全面的技术才能干这个事，但我有个商业模式创新也可以搞，电商搞一些，电商就干出来了，它并不是技术的创新，是模式的创新，所以我觉得创业还是很有机会的。

在AIGC这个领域，我觉得AIGC创业这波还是会有很多做法。我们普通人没有这么多的资源，有几种方式可以解决？第一种，有一家公司是用CPU的方式来做GPU的事情，这种CPU的形式做到了成本很低。这方面是有巨大的空间的平台，拿台笔记本就可以干这种CV的事，就可以创业了。有些像做文本的技术，现在ChatGPT已经开放了，大家用起来也很方便，也有很多的API的接入技术都可以去使用。其中的创业成本门槛已经比以前低了很多，而且它的收费时间并不高，你几十万次才几十块钱，所以这里其实会做很多的东西，关键是要么从需求出发，延伸性的做一些创新，要么从一个紧急的应用上，继续加一块砖也能产生巨大商业价值。

曹晟： 我讲一下我自己的看法，我以前是学物理的，一直相信熵增定律。现在是大家在一个信息上，一直在信息熵增和explode一个阶段。这个带来很多东西，我觉得他思考会和以前不一样，首先企业的这个生命周期里面，企业的周期越来越短，同时做公司的怎么定义门槛，但是至少现在的公司比之前越来越容易，包括云计算等技术。

当然这对创业是一个利好，又是不利好的情况。可能很多项目起来很快，但有些公司因为ChatGPT的事情，它又受到了一些影响。到时候大家能看到很多企业周期变化，新老交替迭代或者业界发展都非常快，我觉得大家可以去accept这个事实，也不用焦虑，首先有很多机会，同时也有很多竞争对手。有很多事物是可以被颠覆。大家只要接受这种模式的话，我觉得就是可以走出一条路的。

李江玕（主持人）： 我记得4月份的时候，当时在国内一家公司做拜访，那个时候我们刚开完记录总结会，我说总结出一点，珍爱生命，远离大模型。我说什么意思？他说你做的东西不能够在大模型的能力的延伸线上，这样的话可能会很快死。那我在想UGIC可能跟国内的一家大厂有关系。以前的想法是做任何东西不要在大厂的延伸线上，因为大厂很容易复制能力，这对于创业者来说其实是很难的，要做的也只是那个需求大盘本身自己做起来很难受的一些需求，那么可能这个比较好。

刚才张伟你提到一点创业的想法，当然我们也知道现在的这种环境都不好，从shopee的角度或周围一些朋友的角度来讲的话，你会鼓励大家去创业吗？

张伟： 我有个同事也在问我，因为我以前是做NLP的，他不是做这块的，他问这个有没有机会？我劝他谨慎一点，还是在大厂待着好一点。他只是有一个比较懵懂的idea，所以这个就挺难的。而且大模型也有大厂开源的了，所以你去创业，一是资金拿不到，二是很难做一个盈利模式出来。有些同事之前做一些客服的机器人，然后接到电商里面，它这个东西不用大模型之前也有盈利模式，用了大模型之后体验更好，或者是整个对话效应更好，因为现在的大模型API的成本也比较低，用大模型迭代的现有应用还是挺好的。

还有数字人，现在的需求量是在那的，只要你的技术做得好，是有人用的。比方说一个直播它就24小时在那挂着，还是挺好的，开直播就相当于是免费的，这样带来的流量也是客观的。这个流量不像广告一下需要付费。虽然大家觉得数字人流量不如真人，但是从商业的角度上还是有一个利益点的，这个创意还挺好的。如果做大模型底座的创业，现在确实是风险很大，有些朋友去创业，起初他们出去的时候拿种子轮融资的时候环境还挺好，现在就很难拿到融资了。

李江玕（主持人）： 我之前有个投资人朋友见了更多的创业者，他总结出来说，创业者最开心的状态是两个时候，第一个是产品上线前，即第一版产品上线前，第二个是刚拿到的融资还没有到账，中间这个过程是最开心的，之后就很不一样了。

你们刚才提到的那个数字人，其实最近在东南亚市场有很多人在关注，就是TikTok电商的发展，我们也是聊了很多这个行业从业者上，因为在直播这个方面人员的投入还是挺大的，尤其是在东南亚大家觉得人员的效率跟中国比是有差距的，所以大家讨论数字人比较多，但是可能就是在实际应用上还比较少一个东西。大家对这个怎么看？

张伟： 我自己不止数字人，包括国内接受度比较高其他AI应用，类似一些智能化运营工具和数字化的业务看板，东南亚这边都还处于初期，这些应用接受度需要慢慢发展。所以包括数字人在内的智能化运营工具都还是处于萌芽期。

虽然现阶段规模小，接受度低，但是发展空间还是不错的，第一个是消费者端电商市场渗透率，第二个是商家侧的运营能力跟国内拉齐。随着这两部分的发展，数字人以及数据驱动的运营工作等都是有很大的市场的。国内给商家提供第三方运营的公司，有很多，但是东南亚这边其实还较少。在一个成熟市场去做技术创新，这件事情是一个思路。在一些发展初期市场再去做这件事情，随着市场成熟，机会也会更多，所以我觉得数字人在这还可以的。另外，我觉得数字人比国内好一点，在东南亚的真人直播质量和数字人的差距没国内那么大，这个也算是个优势。

李江玕（主持人）： 对于消费来说的话，TikTok本身是一个就是广告投放渠道本身，但本身也是一个电商的竞争对手，历史上大家都认为就是TikTok的广告的转化率比Meta 跟谷歌都要低的，原因是什么？目前包括数字人、办公情况会给这个行业带来什么样的变化？

曹晟： TikTok的转化率比Facebook、谷歌要低。一个在TikTok做Monetization的朋友说，TikTok的转化率是Facebook的一半，但这个数据没有考证。在我个人看来，主要原因是在做广告投放上面。在传统广告投放上面，短视频的信息密度，还有转化率要低过信息流的。

像谷歌、Facebook，它们基本还是一个以信息流为主的产品，短视频是它们的一部分，但是TikTok是以短视频为主的一个产品，短视频的粘度非常高，所以不做短视频的话，session time肯定会被短视频抢走，但是整个短视频的monetization效率是低过信息流这类产品。然后数字人我确实不太了解。这个是指经常挂在这个平台上，24小时的一个电商直播，它是一个虚拟人吗？

李江玕（主持人）： 国内现在还有很多这种，就淘宝上的账号，它其实都是挂着直播的，但往往是有一个人在那边，可能也不是特别活跃。但是现在有了这样的技术，可能以后你不需要雇一个人在那，然后你可以同时用处理的方式在不同的渠道完成直播中的时效。

曹晟： 那他就是不同数字人，因为每个商家都有自己的一个直播频道，他怎么去跑出来呢？如果一个用户他刚进入到整个平台上，想要找到类似还是需要一个检索或者推送的方式。这部分可能还是需要广告推送让他更容易跑出，一旦它有这个绑定之后，可能就成为深度转化，那个时候它就不需要这个持续的广告推送，它就会绑定这个channel，然后通过数字人去让它持续转换。

郎君： 我补充一下数字人或者虚拟人。这个在游戏里面已经很多年了，它叫NPC。比如说你打王者荣耀，突然之间有个人下线了，可以有个机器人代替，大家可以感觉不到，那这机器需要匹配机制，你需要这个机器人比你强很多还是比你差很多，有时候你跟一个很强的人打了几局，你就进步了，但一直被虐你就不想玩了，你跟一个很差的人打一会没意思，也不打了。所以这里面匹配是很复杂的。在虚拟直播里面其实也是这样，有时候你到一个店里面，如果这个直播讲得很好，互动很好，这个机器人调得很好，你就随便买东西了。如果你跟机器人聊了半天，聊不上来，体验不好之后就不买了，直接走了。所以这个虚拟人的技术，我觉得它不只是个聊天机器人，可能还有那种表情、动作、手势，还有广告的技术，心理学怎么去设置，非常非常复杂。我觉得做好了还是有极大的前景。

李江玕（主持人）： 所以这个行业还是有很多的可能性的问题的。今天的时间也差不多了，接下来我们大概有15分钟的休息时间，3点半我们将进入下一个议题，感谢三位嘉宾的精彩分享。

雷峰网原创文章，未经授权禁止转载。详情见转载须知。

本文被转载1次

首发媒体

| 转发媒体