大模型终究要泪奔，谁才是 Ai 行业的“掘金者” ？

砍柴网 • 1年前扫码分享

我是创始人李岩：很抱歉！给自己产品做个广告，点击进来看看。

AI 行业火了大半年，时至今日谁才是产业链里的掘金人呢？

可以是给大模型训练提供数据的供应商、可以是自由定价的 C 端产品，但唯独不会是大模型提供方。

究其原因，如何选择好的赛道，首先要有不错的商业模式，其次是行业上下游的议价能力，最后看利润。

无论是选择好公司还是好赛道都离不开以上三点。

接下来我们具体聊聊：

为什么大模型赛道不行了？

AI 行业涌现的机会在哪里？

绝大多数的大模型企业要泪奔

为什么这么说？

因为，大模型企业很难满足上述提到的重要三要素。

从年初， OpenAI 带着 ChatGPT 震惊全世界，封闭大模型成为主流；谷歌、百度等海内外一众互联网龙头都纷纷怕掉队，哪怕是产品还不成熟，都着急忙慌的出来路演，就像第一次面世的 Bard 让谷歌跌掉了 1000 亿市值。

后来， Meta 发布开源大模型 Llama，变成了开源大模型的鼻祖，开源大模型让众多企业、研发人员有了追赶 GPT 的机会（没有开源，那只会望尘莫及，毕竟通用大模型的训练成本不是随便一家企业能承受的）；

大模型终究要泪奔，谁才是 Ai 行业的“掘金者” ？也正是因为有了开源大模型，才让大模型市场发展的如火如荼，有了今日的 " 百模、千模大战。

但是，随之而来的是大模型企业所面临的问题。

首先，各家大模型与 Open AI 的差距还是很明显，留给其他大模型厂家的市场空间就已经很小。另外，市场上其余可选大模型非常多，比如众多开源衍生品，但产品同质化严重，这也就会导致大模型在面对客户时的话语权非常低，毫无议价权；

其次， 大模型企业为了优化输出结果，还需要不断的迭代模型，而这需要大量、专业的数据投喂进行训练，因此数据企业提供方也会成为制约大模型发展的重要角色。

最后，大模型的训练成本很高不说，想要做出超强大模型还得拼算力，也就是看谁能抢到更多英伟达 A/H100 芯片；

另外，在大模型定价方面只会越来越难，开源已经是常态了，连 openAI 最近也要开源新的大模型了，如果 GPT3.5 开源，那对于其他大模型厂商来说可谓是毁灭性的打击。

对于大部分的大模型方来说都面临着一边难收费，一边要拼命花钱训练模型，以后数据也会开始收费（又多了花钱的渠道），怎么想大模型都不是一个看起来能轻易盈利的商业模式。

未来肯定很多企业会放弃这条拥挤、又不赚钱的赛道。除非是能追上 GPT4 的水平，真正做到让用户觉得好用，才会有绝对的竞争力。

数据运营商的春天要来了

上文提到，扼住大模型发展的除了 AI 芯片，那就是训练大模型必不可少的数据。

我们认为，数据运营商将迎来发展的黄金期，不过还要适当考虑各国情况的差异性（这里不做展开）。

数据是新型生产要素，这句话在大模型这里得到非常好的体现。

值得关注的是，数据商将成为行业卖水人。

谷歌最近就因为非法搜集用户数据用于训练 AI 模型，被美国加利福尼亚州克拉克森律师事务所起诉，要求向用户赔偿数据使用费和告知数据用途。

数据价值已经开始显现。

近日，海外 Prolific 公司不仅获得 3200 万美元融资，还赚了 1 亿 + 美元的数据提供费用；每小时价格在 6 — 8 美元或更高。

大模型终究要泪奔，谁才是 Ai 行业的“掘金者” ？也就是说，Prolific 这种为企业或个人提供的数据是可以用于商业化并且具有版权的。这一点对于大模型厂商来说非常重要，能够很好避免产生数据版权的纠纷。

Prolific 已获得了 3000 多家知名组织，其中包括谷歌、牛津大学、斯坦福大学、伦敦国王学院和欧盟委员会等。超过 2 万名科研人员在其平台上获取高质量数据。

Prolific 也表示，高质量、真实训练数据对于 AI 大模型来说能够减少幻觉、非法输出、增强 RLHF 能力。

我们认为，数据运营商在大模型上的商业价值才开始显现。

C 端应用是 AI 流量必争之地

哪里有流量，哪里就有财富。

之前业内都在讨论到底是封闭大模型还是开源大模型的生态会更好，哪个模式的商业价值更胜一筹；

最后得到的结论是： 开源还是封闭其实不是最核心的问题，关键在于如何形成好的数据飞轮效应。

最近 " 数据飞轮 " 这个词在科技圈内非常火，简单来说是一种描述数据价值增长的循环过程。

在互联网时代我们看到数据量的激增，而在 AI 时代数据爆发将远超上一次。

如果从产品落地和价值变现的速度来看，那么 C 端应用定是巨头必争之地。

无论是微软用 Microsoft 365 Copilot 开启办公 AI 时代、Windows11 即将内嵌人工智能助手颠覆每个人操作电脑的习惯；

还是一直在内卷的 AI 绘画、和即将开卷的 AI 视频；

C 端应用往往比 B 端更容易落地、也更容易变现，核心在于 C 端产品更标准化；

而 B 端的场景、诉求更多，很难统一，这也就导致了落地进度更难，更别提还有很多隐私数据、know-how 等专业内容要考虑。

这也就为什么在国内互联网流量红利期赚的盆满钵满的是阿里、腾讯、字节这样的巨头，因为他们掌握了 C 端流量，而工业互联网企业都活在了 " 贫民窟 "；

谁掌握了用户流量、产品定价，现金收入便是有了保障，同时还能获得广告商的青睐；

另一方面，想要做 C 端应用的企业还有很多大模型可供选择，就好比金山办公已经开始这么做了，基于三种大模型之上来调度，根据任务选择性能最优的大模型。

总得来说，C 端一定会成为 AI 行业最先变现的赛道。

来源：硬AI