独家对话智谱高管:开源的大模型越来越多,但智谱不着急

雷锋网  •  扫码分享
我是创始人李岩:很抱歉!给自己产品做个广告,点击进来看看。  

【雷峰网 (公众号:雷峰网) 】作为当前国内最受欢迎的开源大模型之一,智谱AI开源非常早,是国内大模型的开源先锋。

2022年,在国内还没有多少人相信大模型的时候,智谱就将其开发的高精度双语千亿模型GLM-130B进行了开源,ChatGPT爆火后又紧跟着开源了60亿参数 ChatGLM-6B,早于国内的大多数同行。

GLM-130B是智谱在2022年7月自主研发的千亿模型。当时,中国对大模型的理解还普遍较弱,智谱刚在 GitHub 上开源 GLM-130B 时,鲜少为人问津,过了一个月才勉强攒够 1000 颗星,“很多人不会用(大模型),问题也超级多”。

而智谱对开源的理解也比较领先,在7月训练出 GLM-130B后,8月就开始招人做开源运营,专门推广 GLM-130B 的开源生态。

GLM-130B开源的目的主要是为向外界普及大模型。但那时候,全国懂大模型的研究员加起来也不过百来人,他们当时是在大模型的低谷期去推广 GLM-130B,其艰难程度可见一斑。

ChatGPT 爆火后,大模型破圈,大家才开始关注到这位国产大模型尖子生:GLM-130B 在 GitHub 上的星数随之暴涨。同时,ChatGPT 发布后、智谱只用了两个月就成功重现了 ChatGLM,并重新训练了一个 60 亿参数的模型 ChatGLM-6B 并进行开源,智谱在大模型开源上很快领先。

近日,智谱公开了ChatGLM-6B系列模型在所有开源社区的开源数据:一代和二代达ChatGLM-6B模型达到1000万+下载,累计四周Hugging face趋势榜第一,GitHub 5w+stars。

上半年,智谱的 GLM 在开源上一骑绝尘,这主要归因于其早早布局的先发优势,又抓住了 3 月 ChatGPT 在国内爆火的关键时机进行开源。

但在 7 月,Llama 2 开源免费可商用,成为新的话题。彼时,智谱To B的路线已经渐成共识,关于智谱是否会开源其百亿模型的讨论也在圈内不胫而走,而智谱一直没有公布其下一步开源路线。

直到上个月27号,在2023中国计算机大会(CNCC)上,智谱推出了全自研的第三代基座大模型ChatGLM 3,智谱AI CEO张鹏在会上宣布开源了ChatGLM3-6B。

在ChatGLM 3 系列模型发布后,智谱成为了目前国内唯一一个对标OpenAI全模型产品线的公司。

对标OpenAI但不模仿,OpenAI坚持闭源,智谱选择开源先行,开源与闭源同时存在的打法来扩大自己的生态。

开源让智谱的 GLM 系列收获了大量关注,成为最早突围的大模型公司。随之变化的不仅有智谱的名声,还有智谱的估值:短短半年多时间,智谱的估值从10亿人民币飙升到140亿,成为中国第一家估值超过百亿的大模型创业公司。

近日,AI科技评论分别跟智谱AI CEO张鹏、智谱AI新晋首席生态官刘江聊了聊智谱对开源的布局和认知,以及他们对行业的一些认知。谈到开源对智谱、对整个行业的意义,张鹏承诺开源也是智谱未来会一直坚持的事情;以及他们对大模型To C、To B的看法。

还聊到开源对商业化的影响,现在大模型已经进入第二场——加速商业化时代到来,刘江认为开源其实是占领用户。

在Llama2抢占国外开源生态的同时,以智谱为首的一众基础大模型厂商不断在开源上发力、奉献,随着开源大模型越来越多,也为国内大模型开源生态注入源源不断的新生力量,促使国内大模型开源生态逐渐扩大、完善。

在日益激烈的竞争中,智谱正在通过各种方式不断完善自己的大模型生态,以此来做大整个产业,这也是智谱作为排头兵的责任,希望未来同行都能在不断做大的大模型盘子中找到自己的位置,而开源生态便是智谱生态中的重要一环。

以下是AI科技评论与智谱AI CEO张鹏、智谱AI新晋首席生态官刘江的对话:

开源版本与商业版本的区别

AI科技评论:最近在忙什么?

张鹏:市场、客户。我现在的主要精力都放在To B市场和研发这两件事上。

AI科技评论:内部怎么看待开源?

张鹏:开源是智谱重要的事情,最新成果都是以开源的方式放出来,再有商业的版本。符合开源先行的理念。

AI科技评论:最初为什么会选择开源?

张鹏:开源其实就几个事情:第一、将我们的大模型开源出去,让大家知道智谱在做什么。第二、开源以后,可以让更多的人参与进大模型,用社区的方式、汇集大家的热情一起来推动大模型发展,这是开源最重要的一件事。

并不是说要用开源去赢得市场或者为了追求商业上的利益,要不然就不会选择开源了,这是智谱一直以来对开源的定位。

AI科技评论:如何看待开源与商业的关系?

张鹏:开源的目的和商业不要混为一谈,开源和商业化是整个生态版图里很重要的两块,这两块是有连接的,可以说开源充当着商业化的桥梁。

AI科技评论:是否会考虑开源12B或者更大的ChatGLM?

张鹏:对于是否开源12b,内部曾有讨论,结论是其实 12B 开不开源差别不大,12B 和 6B 之间的性能差异并不是两倍,只是参数是两倍。

我们觉得开源主要还是为了研究、推进技术的演化和创新,ChatGLM-6B主要面向研究者、个人开发者。所以在这个目标上,6B跟更大参数的模型没有本质上的差别。

AI科技评论:开源模型越来越多,对智谱有哪些影响?

张鹏:开源的多了,大家就多了一些选择。可以不用商用的版本,客户直接用开源的版本就好了,但这件事有好有坏。

好处就是说可以低成本、快速地切入使用上大模型,但开发者也知道社区支持这个事情永远是一个雷,开源大模型在安全性、稳定性等方面很难得到保障,这也是商业版本能够与开源版本并存的原因。商业版本可以提供更多的服务,更多的保障以及更多后续的服务,这些开源版本不一定有。

AI科技评论:对于开源和闭源大模型,用户应该如何选择?

张鹏:得看他的目的是什么。如果他只是想做一些实验和尝试,那选开源模型没问题,如果想要在上面做一些商业化应用,我觉得大部分人还是会选择商业化版本,因为有保障,能够提供更好的服务。

AI科技评论:未来大模型开源会一家独大吗?

张鹏:不会,未来开源一定会百花齐放。

AI科技评论:如何看待未来开源与闭源的竞争?

张鹏:两者天生不是矛盾对立的,也不是竞争的关系。对于整个大模型行业来说,两者其实是互为补充的。

开源是为了保持社区的繁荣和多样性,能够保证技术、产品能够源源不断补充新鲜的血液和产生新的变化,闭源的商业化的版本肯定是用来满足商业化的需求,商业化的需求是什么呢?是安全、低成本、高效、持续有价值的服务。因为对比商业版本,开源版本一定是滞后的,包括技术的迭代、维护等等。所以两者的优势并不在同一个位置,就竞争来说,一定是同位的才会有竞争。

从这个角度来看,开源和闭源大模型两者是相互弥补的。

更聚焦于 To B 商业化

AI科技评论:行业里前段时间一直在讨论开源和闭源更适合To C还是To B,那智谱对大模型To C、To B的规划是怎样的?

张鹏:我们团队其实大部分的人都是To B经验更丰富一些,今年才加入了一个专门做C端产品的团队,我们整个的商业化重心都在To B上。

To C其实是一个很好地聚拢用户,达成所谓的“用户-数据”飞轮闭环的事情。但在中国,C端用户付费意愿一直不高,在中国C端收费经常是个很大的陷阱,很多人踩进去就起不来了,再多的用户好像都没有什么太大的作用。

AI科技评论:您觉得大模型领域,To C、To B哪条路更难走?

张鹏:对我们团队来说是To C,但也在慢慢补齐C端团队。

AI科技评论:C端产品主要就是智谱清言,内部还有没有ABC几条产品线同时在做?

张鹏:暂时没有,我们还是希望做的事情更聚焦于商业付费用户这块,而付费用户还是B端客户更多。To C目前还是以免费的方式在推动。

AI科技评论:To B客户主要聚焦哪些行业?

张鹏:现在我们会选择一些行业去做,这个主要还是看市场、看客户的情况。首先得看行业是否具备基本的条件,比如说像基础设施是否发展完备。其次大模型这件事的成本并不便宜,要看客户的预算投入是否支撑得了。

AI科技评论:如何获客?

张鹏:一种是直营,我们自己的销售团队、市场团队去获取的,第二种就是依赖生态,有我们的渠道,还有合作伙伴、代理商等等,主要是这两种方式。

AI科技评论:做To B时碰到友商次数最多的是谁?

张鹏:没太注意,应该都碰到过,大厂、创业企业都碰到过。

AI科技评论:在To B、To C遇到过哪些挑战?

张鹏:两者遇到的挑战肯定不一样,但有一些共性的挑战。首先是技术上的挑战,无论如何现在大家前面都摆着GPT-4,不管是B端还是C端,大家都会有意无意去拿这个标尺去量你。

客户都不傻,他们也会自己测试,去看国内最好的大模型水平能达到什么程度,这也是智谱最重视的。

你可以想想,如果我们某一天真正能够做到GPT-4的水平,甚至赶超,那么现在面临的很多问题都能迎刃而解,例如客户说的价格太贵、不好用等等。甚至可以连商业模式都不用考虑,只提供API就行,目前大模型本质上就是技术上的挑战。

第二是商业模式上的挑战,这块我们做了很多的探索,也有自己的的想法、理念和突破。比如在To B,智谱给出了三种不同的商业落地解决方案,其实就是解决不同类型用户在不同成本条件下的落地情况,在这一点上我觉得我们智谱应该走的比较靠前。

AI科技评论:这三种解决方案是什么?

张鹏:我们一直在跟大家讲的,我们有三种大模型的使用方法。

第一种就是直接用我们的API就行了,但大家都一样,API都是一样的,能力也都是标准化的。

第二就是当标准化的版本还不能满足需求的时候,例如客户需要做一些模型侧的微调优化、数据隔离、专属的算力支持等等,智谱就会提供在线的云端私有化方案。

第三种就是完全私有化,这也是最具中国特色的B端解决方案。

AI科技评论:哪一种方案占比较多?

张鹏:没有一个占绝对优势,但我们判断未来主流会逐渐转向云端私有化。

AI科技评论:云端私有化,客户会有安全性的考虑吧?

张鹏:这就要看客户如何平衡了。我们也会充分考虑这件事,会从技术侧提出解决方案。

AI科技评论:商业化上遇到哪些挑战?

张鹏:目前最大的挑战是叫好不叫座。可能许多人提到智谱会很认同我们,但是提到付费购买,大家却犹豫不决,开始打退堂鼓。

AI科技评论:您认为这是为什么?

张鹏:我觉得是因为大家对大模型这件事的认知还没那么深。有时候包括我们自己在内都在疑惑,大模型到底能干什么?能给大家创造什么样的价值?早期的时候确实很难想明白,像今年年初ChatGPT发布之前,我们跟投资人聊的最多的就是问怎么商业化?谁会买它?

3月ChatGPT彻底出圈后,大家不再问这些问题,觉得这些都不是问题,但现在大家又开始回过头去问这些问题。

AI科技评论:现在为什么又开始问这些问题?

张鹏:GPT爆火一下子把天花板捅破了,大家就会觉得商业化落地这个事情就找到了一个巨大的出口,但它只是技术上的一个出口,但大家就会脑补,把期望值拉得特别高。

一旦整个行业热情势能爆发,但模型能力的发展并不能持续支撑这种势能,大家就会冷静下来,回头看ChatGPT好像也很难商业化,真正到B端应用时光靠chat类产品好像也不够。就冲过头了嘛,大家就会回过头来再问这个问题。

AI科技评论:那智谱有答案了吗?

张鹏:我也不知道这个答案最终是什么。可能也没有人能给答案去评一个分,或者设定一个标准答案。我们一直在和我们的合作伙伴、行业用户一起去探索这件事的答案。但我们比较自信的是,智谱有很多优势,由于我们对底层技术的全盘掌握和资源的深入掌握,认知会更深刻一些。

AI科技评论:能举个例子说明吗?

张鹏:比如模型擅长什么,未来发展趋势,我们积累的算法这些技术优势在商业化方面的优势,以及在用户的特别苛刻的情况下智谱如何去配合模型,即配合系统、配合应用开发去满足用户苛刻的指标要求。

这些事情我相信只有对核心技术掌握得特别清楚的团队,研究特别深的团队才能做到。这也是使用开源版本和完全自研的商用版本的差异。

AI科技评论:智谱未来的重心?

张鹏:就两条腿走路,一条腿是继续追求技术上的领先,另一条腿是持续商业化落地。

AI科技评论:相对于其他创业公司,智谱最大的特色是什么?

张鹏:我觉得我们最大的特色就是从核心技术出发到整个商业化落地过程,我们都有自己的想法,是自主可控的核心技术,以生态为主的商业化落地的打法。技术上比较简单,我们就对标全球最好的,商业化落地的目标是把生态做的更大。

AI科技评论:以生态为主的商业化落地的打法怎么讲?

张鹏:这是我最近感触非常深的一件事。其实从商业化落地的角度来讲,很多时候大家看到的都是天花板以下的,假设市场就那么大,那我们要做的就是抢到更多份额,但在抢的过程中就会忽略掉蛋糕是不是可以做的更大,这样大家存活的空间就会更大,我们就在思考有没有可能实现共赢?

现在我们商业化的思路会偏向于生态共创,就是说我们不是杀到某个行业中去抢蛋糕,而是拿着我们的技术、工具、产品去赋能客户,去给客户创造价值,赋能我们的合作伙伴,希望在这个产业中我们的合作伙伴越来越多,最后跟合作伙伴一起把整个市场做大,把蛋糕做大,收益也就更大。

AI科技评论:具体到大模型行业怎么做呢?

张鹏:我们会告诉大家智谱的定位就是做基础大模型,那么对于上层应用,贴近用户侧的事情交给合作伙伴去做,如果大家愿意跟智谱一起合作,加入到智谱的生态中来用新的生态的方式去做,智谱很欢迎。

目的是希望用了智谱的大模型以后,能够一起改变了整个产业原来的生产流程或者生产的范式,就等于提升了整个产业的天花板,收益的是生态里面的所有人。

这是我以前跟国外的创业者聊天交流时感受到的最大的一个不同,他们的商业化的思路更open,他们看到的是全球。他们的视野很广大,想的不只是身边的市场,更多考虑的是怎么把整个市场的天花板提升。

AI科技评论:什么时候有这种感悟的?

张鹏:也就今年的事儿,To B的前期,我们真正做这个事情的时候才发现确实是这样,大家考虑问题的方式确实不太一样。

看谁能率先追上 GPT-4

今年10月原智源副院长刘江宣布加入智谱担任智谱首席生态官,智谱的核心团队再迎来新面孔。

AI科技评论:为什么会选择智谱?

刘江:从美团出来时,我想的是中国哪个地方更像OpenAI我就去哪里,所以去了智源,后来想着不如跟老王出来一起打造一个“中国的OpenAI”,但现在觉得智谱优势更大,所以来到了智谱。

AI科技评论:首席生态官主要是做哪些事情?

刘江:大模型赛道处于早期,虽然热闹,但竞争其实不明显,所以在发展早期,把产业做大才是最重要的。做大就是生态的问题。怎么把大模型产业发展起来,我的角色就是要对外去找到大模型有价值的合作伙伴,让大家把大模型真正用起来。

AI科技评论:这里头涉及哪些方面?

刘江:主要包括三个方面:

一是,比如把大模型理解为一个云平台或一个操系统这样非常基础的能力的话,那它上面比如工具链,所谓说的中间层,要通过中间层用上大模型,其实门槛还挺高的,那么如何降低整个门槛,在各行各业中去落地。

二是,怎么把开源生态团结起来。

三是,学术上,除了清华实验室的老师,还要让更多高校的老师参与进来。

团结一切力量,把蛋糕做大,这是智谱的一个规划。

AI科技评论:您对开源怎么看?

刘江:之前我有一个观察,开源实际上是一种以副价格推广产品的方式,就是我们收钱,而且我还送代码。所以它的目的其实是占领用户,至少让更多人知道你,熟悉你的一个方式。

开源就是一种技术实力的验证,技术实力一定要强。某种意义上可以说只要敢开源,至少它还有一定的技术底气的。就像智谱最新的6B就是技术实力的证明。

AI科技评论:您觉得开源面临哪些阻力?

刘江:在欧美技术公司,开源也是一种主流打法,但在中国,开源的商业模式还没有被验证。现在大模型领域,大家都是开一个小的版本,然后靠更大的版本来变现。

AI科技评论:智谱在B端、C端有什么规划?

刘江:C端肯定不能放弃,这会是一场硬仗,可能最后最重要的战场还是聚集在C端,所以未来智谱的挑战很大。放长远来看,在中国B端、C端都有很大的机会,智谱现在B端有优势,创业公司做C端可能有优势,但都没那么厉害,没那么扎实。所以大家都有机会。

AI科技评论:对比一众大模型公司,智谱的优势是什么?

刘江:人才和研发、组织模式特殊,这是很大的优势。

AI科技评论:怎么讲?

刘江:智谱现在的组织方式不是大厂模式,属于产学研,能很好地发挥清华的优势。因为本质上大模型的科研属性依然非常强。

AI科技评论:整个行业本质上还是比拼什么?

刘江:大模型这件事是重资产, 烧钱,根本上还是一个科研项目,虽然现在有很多企业参与进来,但最后还是要拼技术实力、看哪个团队能把AGI干成了,其他商业化都是副产品。

AI科技评论:您觉得未来大模型领域的一个关键节点是什么?

刘江:现在主要看谁能赶上或者超过GPT4。很有可能很多人都过不去,因为我观察的一个细节就是 Llama 当时做出来以后,其实它在一些指标上也接近 3.5 了,那么 Llama 2 立项的时候他们肯定是想一定要超过 GPT-3.5 的,但实际上最后没做到。所以大模型技术门槛还是很高。这对国内很多团队都是一个考验。

雷峰网原创文章,未经授权禁止转载。详情见 转载须知 。

随意打赏

提交建议
微信扫一扫,分享给好友吧。