第四范式胡时伟：关于大模型技术的三点思考

砍柴网 • 1年前扫码分享

日前,第四范式联合创始人、首席架构师胡时伟受邀录制了播客节目「夜航西飞」,分享了他与第四范式对大模型的研究与思考。下文转载自公众号“MacTalk”,作者池建强。

上周和第四范式的联合创始人胡时伟做了一次对谈。收获不小。为啥有这次对谈,我们的想法其实很直接,绝大部分人都是站在用户视角从市场侧看AI领域的发展,噪音太多。

这次希望能从技术侧听一听在浪潮之巅领跑的那拨人到底是怎么看ChatGPT,怎么看未来趋势的。

老胡是第四范式的首席架构师。毕业后去了百度,在创始人戴文渊博士带的团队里,用机器学习的技术去做广告系统,算是中国非常早期的 AI 商业化应用实践了。后来业界流行去 IOE的时候加入了链家做战略转型,利用技术把人的结构转变成基于互联网的结构。2015年作为联合创始人和戴文渊、陈雨强一起创办了第四范式。

下面是我的总结,这期内容会以播客的形式,发布到夜航西飞。

1、要颠覆什么

企业日常经营就是在不断地做决策并执行。这些年,辅助决策是 AI或者大数据技术的一个重要应用场景。决策就是说企业处理一个事情的时候,比如营销、分发,有很多种不同的做法,要选择什么样的做法。

但决策类AI不容易做。因为决策,上游需要高质量的数据作为输入,下游的具体服务得靠人提供。

先说下游执行服务的人。人的不确定性太多了,你出策略,即使 AI做得再好,只是辅助,执行如果不到位,数字化也不会有进展。执行,过去我们是人主要驱动的,即使有 CRM、ERP、HR,都是靠人,用非数字化的方式执行了之后,把结果一项一项填到系统里面去。

比如 CRM系统,每次写记录都费老大劲,好不容易攒几句话交差,之后却从来没用上,因为真正需要沉淀、复用、流通的业务经验其实存在于执行过程中,所以很多难用的系统,用着用着就边缘了,没有提供业务价值,反倒成了负担。

上游输入的数据也是个大问题。

前几年讲,好的企业好的团队要讲究闭环,迅速迭代、螺旋前进,但迭代的依据怎么来呢?得靠数据。数据怎么来呢?完蛋了,执行的过程绝大多数企业压根没收集到数据。

这里的“数据”,不是说你没有历史数据,而是你今天正在开展的业务里边没有足够的反馈数据。什么是反馈数据?

员工跟企业之间的数据交换其实有三条通道。

第一条是接受信息、接受培训,比如视频、文字、PPT;第二条通道是人与人之间的交流,跟同事跟主管跟客户的交流;第三个通道是什么呢?是用系统。

做决策,我们只能用系统里边的这些数据去产生策略,但在这三条路径当中,系统能占多少?

其实你仔细看,在一个员工的所有数据里,系统可能 5%都占不到, 95%的时间你是在阅读,在跟人聊天,在写 PPT、填表格、开会,所以95%的数据都不在系统里。这部分,反而是我们最想萃取的专家知识。

举个例子,我之前做 ToB业务,销售团队经常需要和客户沟通。当时有一个非常优秀的销售,业绩一直遥遥领先。有一段时间我们就想怎么让经验流通起来,找了一个萃取专家。

他有点类似咨询公司做的事,采访这个销售问到底是怎么做的,比如一个线索进来你怎么聊天?如果客户对我们产品感兴趣,怎么办?不感兴趣又怎么办?如果客户不理你了第二天怎么办?总之是一步一步怎么跟的。当时这个萃取专家做了几个小时的访谈,整理了一个比较简单的销售流程 SOP,我们就根据这个 SOP给团队其他的销售看,照这个流程做。

但萃取这件事情大概率是不能通用的,无效的原因就是因为很难有一个非常优秀的萃取专家。因为专家首先得懂业务,其次还得懂怎么拆解落成 SOP。如果这个销售懂怎么把自己的经验一步一步梳理出来,沉淀成 SOP,也就不需要萃取专家了。

所以对企业来说,关键是什么?关键是能不能把流程梳理出来构建成软件。

但在现实业务流程里,环境太复杂,那95%都是非结构化的、多模态的,我们没法抽象化、标准化,有的甚至都没法数据化。

这是数据的困境。

过去的信息化其实是把所有的业务步骤抽象为表单和流程。表单比如 Excel,有的企业自嘲说自己的数字化特别落后,都在 Excel里边做,其实这也是一种数字化,还是一个比较经济的数字化方式。问题只是这些数据难以得到利用。

我司做直播那会也是用 Excel做,后来切到了多维表格上。但多维表格也得懂怎么调各种视图,还是有门槛。现在已经把数据集成到对话机器人里了,输个指令,直接收到回答。

ChatGPT的创意就是让聊天或者说一对一的沟通,成为了知识库的一部分,成为了软件。企业可以大大扩展数据的边界,突破5%。

以前的系统和表单解决不了的、沟通不了的,由于有了 GPT,机器拥有了跟人很好交互的能力,甚至是多轮的、复杂的、带思维链交互的能力。问题,一部分转嫁给算力,一部分转嫁给企业自身对业务的理解,做中间部分的 SaaS企业可以比之前做薄太多,大大降低成本,实现所有 ToB企业的梦想——用标准化的成本,完成定制化的需求。

未来企业,AI会成为一个生产要素。除了员工之外,还会有一批“AI员工”。

2、该做点什么

AIGC在应用上确实是超出所有人预料,包括 OpenAI的 CEO Sam Altman。但 ChatGPT,从技术视角来看,其实没有太强冲击性。技术的发展是线性的,但公众的感知是阶段性的。技术和市场之间有巨大的鸿沟。

我们对变革的感知,往往是出于一些标志性的社会事件,比如1997年深蓝打败国际象棋冠军,世界都震惊了,一批有志青年开始投身编程,后来一家美国 SaaS公司用数据技术抓住了本拉登,2016年 AlphaGO在围棋上又打败了人类最强棋手,再到今天的 ChatGPT。

当生产力变革来临,绝大多数人都躺在同一起跑线上,后知后觉。

AI领域发展起起落落,从 1956年到现在,每隔 10年、20年就会重大变革一次,人们就会疯狂一轮,市场迅速激活资本争相押注,推动下一次变革,相同的问题被翻出来讨论:AI会替代掉哪些岗位?会不会改变人类社会?

都争这么多年了,我们也不用焦虑。就像之前有人问我该给自己家娃报什么专业合适,是不是要报个火热的将来发展前景好。问题是现在是火热,等孩子真读几年出来,这个领域要么已经人才贬值卷成花卷,要么已经凉了。

但技术与技术之间确实是有区别的。有的能带来巨大变革,像蒸汽机、电力、计算机对人类历史的改变,有的像移动互联网对人类社会的冲击,有的比如操作系统、iPhone重新定义体验。老胡总结技术圈看 AI发展,到现在真正有突破性成功的有 4个阶段。

第一个阶段是人来写规则,用人的经验来写程序。比如 1970年左右研究的专家系统,靠人先把知识总结出来,再输入给计算机。明显没走通。但把专家的经验变成程序这个事现在业界还在实践。

第二个阶段是机器利用数据,写少量的规则。这时候开始有一些模型,比如决策树、简单的神经网络。

第三个阶段是机器用海量的数据,写大量的规则。这其实就是深度学习,或者叫专用大模型。广告、人脸识别就是用的这个。每个模型,只能解决一个问题。

第四次浪潮就是这一次,迁移学习的大模型,也就是我们讲的通用大模型。海量的数据,同一个模型,解决不同的问题。形式都是 Transformer的续写形式,但能力是多样的,比如问答、总结、扩写。

前两次突破,应用的场景非常有限,甚至大部分时候无效。后两次突破在生产生活会有非常大的作用。

ChatGPT刚出来的时候,所有人喊是一个 iPhone时刻,发酵了半年,现在开始大家觉得它的冲击介于移动互联网的诞生和计算机的发明之间。但到底长期怎样,会不会落在计算机的发明和电作为一种传输方式的区间,得让 AI大模型再飞一会。

3、趋势是什么

未来会变成什么样。

ChatGPT让业界重拾了对 IM机器人的重视,都认为对话框是数字化的最佳解法。我们之前也这么想。

但仔细想想,这应该是轻物理资产、重人力要素的互联网企业的限定答案,在其他场景比如物流、驾驶、医疗中,人和机器的交互可能需要其他形式。医生做手术的时候能点对话框吗,不能,但他可以说话,这是一种交互状态;司机开车的时候能点对话框吗,也不能,但是可以用动作,这也是一种交互状态。

所以 AIGC这个事发展到未来,人和机器一定会是多模态的交互,而且是更接近于人的自然能力。IM只是中间的一个过渡状态。

输入法早年在算力不足的时候,大家要学五笔,后来变成了拼音,再后来变成了整句智能,到现在变成了语音转写,再之后干脆语音得了,都不用文字转写。

做软件始终要降低自己产品的使用门槛,门槛每降低一点,就意味着潜在用户有指数级的增加。这也是为什么张小龙说做产品要深刻理解人是懒惰的,是没有耐心的,是不爱学习的。因为无论用户多么愿意去主动或被迫适应机器,但是最适合大众的,一定更符合人的自然交互。

技术发展的方向永远都是在短期内,人要纠正自己去适应机器,但长期,机器要适用于人。

这是自然规律。