腾讯邱跃鹏:大模型将开创下一代云服务
9月7日,2023腾讯全球数字生态大会在深圳宝安举行。腾讯集团副总裁、云与智慧产业事业群COO、腾讯云总裁邱跃鹏表示:“云是大模型的最佳载体,大模型将开创下一代云服务的全新形态。”
一方面,高性能的云上算力,成了大模型的最佳助推器;搭载大模型能力的应用,也通过云服务的方式落地。无论是训练大模型、还是使用大模型,都离不开云。另一方面,大模型将重新定义云上工具,效能显著提升,企业可以通过云,使用智能化水平更高、更便捷易用的云产品。
目前,腾讯云已经建立起围绕大模型的全套能力,包括高性能算力集群、云原生数据湖仓和向量数据库等数据处理引擎、以及模型安全、支持模型训练和精调的工具链等,企业、开发者可以根据各自需求,灵活选择产品,降低大模型的训练成本。目前,腾讯云已经助力百川智能、智谱科技、MiniMax等企业打造大模型。
邱跃鹏还表示,大模型进一步提升了云产品的效能。比如,腾讯云风控大模型、腾讯云AI代码助手、腾讯会议AI小助手等产品,都因为大模型能力的加持,实现了显著的效率提升和体验优化。目前,腾讯会议AI小助手已经正式开放试用申请,同时新推出了国内首个裸眼3D视频会议功能。
在大模型带来的智能水平提升之外,腾讯云也通过超低延时的传输网络为用户提供更加全真的体验。实时音视频TRTC目前已经能做到全球端到端平均延时小于300毫秒,即使在非洲等网络基础设施不稳定的地区,也能为用户带来极佳的体验。
以下为演讲速记:
尊敬的各位领导、各位嘉宾,各位媒体朋友,
大家上午好!
我在蒋总后面分享,特意选择从他后面过来,因为云就是大模型背后的底座,我作为蒋总“背后的男人”,分享一下我们在训练大模型过程中云的能力,讲一下我们如何在云上支撑大模型,如何在应用中去使用我们的大模型。
刚才在蒋杰的分享中,我们看到了非常多混元的能力。今年大模型是非常热的话题,今天腾讯发布了我们的混元大模型,在行业中也有非常多的开源模型,另外我们也看到很多公司在做一些大模型相关的创新。所以我今天上来想讲一下,如果你真的做一个大模型,背后对于云到底带来了一些什么样新的、不一样的挑战。
其实我们都知道,你要训练一个大模型对于算力的要求非常高,今天我们的混元Token数据量已经达到2T。如果用GPU的人,我相信大家都知道GPU这样一个高密的算力,它在训练过程中,本身的卡的稳定性要比原来的通用计算的时候是要更差一些的。每次发生GPU卡的故障,对于整个训练中断的影响、对于回滚的要求、对于工程化的要求都非常高。这次做大模型训练之后,我们对云的基础设施,从存储、网络到计算进行了全面升级。基于星星海的服务器,我们把GPU的服务器故障率降低了超过50%,通过星脉网络的支持,我们已经可以支持超过10万张卡并行计算的大规模训练集群。
在训练过程中,如果你有卡的故障,整个训练是要被中断、要做回滚,在整个工程实践中,对于checkpoint写的速度就会要求非常高,其实传统的存储服务,或者一些商业的东西很难满足checkpoint写的要求,通过腾讯云存储的升级,我们可以在60s内完成超过3TB的数据写入,这样我们整个模型当发生卡的故障时,checkpoint写入和读出的速度都会变得很快,整个训练的效率就会变得非常高。正是通过这样存储、计算、网络整体的升级,我们今天可以做到在万亿参数的时候,一轮的训练可以在4天之内完成,让训练效率得到大幅提升,训练时间得到保障,训练成本下降很多。
刚才我们讲的是算力需求,当你有足够的算力做模型训练,构建了一个很好的算力,下一步更重要的是输入的原数据的清洗。刚才看到混元最新的数据到了7月份。其实我们每次更新数据的时候都要做数据清洗。随着数据越来越多,数据清洗的过程也会成为制约整个模型迭代升级的非常重要的卡点。通过腾讯的云原生的数据湖仓,还有我们的向量数据库,我们看到,无论是混元还是今天中国在云上做大模型的创业公司,通过这样的解决方案,我们可以在每秒写入百万级数据,对于海量数据的清洗,也达到了Tbps级吞吐能力。基于这样整体的解决方案,我们看到原数据的清洗性能提升超过了40%,数据处理的整体运营成本也降低了50%。包括MiniMax、百川等这些创业公司都在用我们的解决方案去做他们的云上大模型。
其实不是每个团队都要做大模型,我相信会有很多企业说,我有自己企业私有的数据,我们希望拥有行业模型的能力。所以我们在完成了使用算力,清洗和处理数据之后,对于企业来讲就是怎么样能够更快、更高效构筑行业模型。今天在TI平台上,我们支持大家去做模型的精调,也支持开源模型。我们对企业在做模型精调过程中的精调、部署等方方面面的工具做了全栈式打造,可以让每个想做自己模型的企业,基于TI平台,用我们的加速框架、基础算力、开源工具,让构筑行业模型变得更简单。
大家又想说,我有了算力、有了数据、有了清洗,也有了工具,但我怎么样保证我的安全?基于腾讯多年积累下来的安全能力,我们在大模型训练过程中,对内容安全、隐私内容给出了我们的解决方案。其实大家在使用大模型过程中就会想,我变成了一个prompt工程师和模型去做交互训练,有时候你不希望一些信息被模型完全记录,我们的玄武实验室打造了隐私安全解决方案,让你使用模型的交互变得更加安全。
另外在模型训练过程中,训练出来的模型如何保证里面生成的内容是安全、可控、合规的?所以我们也把腾讯积累下来的内容安全能力开放在云上,让我们每个想做大模型或者想做行业模型的客户都可以使用我们的安全能力去保证自己训练出来的模型可以更加合规。
我刚才讲的是大模型训练过程中,遇到的从计算到数据清洗,到工具,到安全层面的产品。刚才蒋总在他的分享中已经分享了应用如何去与我们的大模型结合,下面我介绍一下从安全到CODING编码,到会议,如何去更好地应用我们大模型的能力。
其实安全是一个非常特殊的领域,尤其在风控方面,对于金融企业来讲这是一个必不可少的能力,因为风控做不好的话,很多业务开展的风险是非常大的。过去,因为一个新的业务做冷启动,风控建模大概需要两周时间,才能把一个模型run到起步的阶段。今天,基于腾讯积累的安全的know-how加上大模型的能力,我们可以让整个风控大模型的泛化能力变得非常强,两天之内就可以很好的形成一个风控模型,这样我们看到的安全保障的能力就会变得非常快速。
当大模型来的时候,尤其当大模型进入编码领域时候,很多人在想,是不是程序员要失业了?内部讨论的时候有些人很慌,我们这个团队今天这么多人,明天是不是就剩一半人了,再过三年是不是只需要一个干活的Leader了?底下工作都是AI在干?那肯定不是的,实际上,我们做一个编码的目的就是通过程序去实现业务,实现很多好的应用,真正让每个用户在使用的过程中享受最终的成果。今天AI的辅助编码更多是让程序员的工作效率大幅提升,在腾讯这样一个AI代码助手辅助下,我们看到在代码补全场景中,主动代码生成率已经达到了30%,而且代码的采用率也是30%,这样的话,我们可以让代码生产效率更高,我相信不是程序员失业了,而是让整个程序员生活得更加幸福,有30%的工作可以让代码助手帮你干。你最后的结果是到目的地,你过程中的幸福感其实是在提升的。
会议也是跟AI结合是特别多的点,线上的开会把大家的联线、real time的沟通解决了,当会议和AI结合的时候,我们可以在会前、会中、会后都有非常多的帮助。大家今天来开大会,你可以摸摸鱼,不听,这都没有问题。但如果说你在一个内部的重要会议上,自己迟到了,或者小小走神、摸鱼了,突然你的领导@你一下,问你“小张,刚才那个问题你有什么想法?”这个时候你怎么办?今天,我们希望通过腾讯会议AI的能力,让你发生这样的情况时可以帮你总结会议中发生的信息,领导在关注什么,哪些和你相关,这些信息都可以通过AI辅助。下面通过一段小小的视频,让大家感受到如何在会议中使用我们的AI能力。
今天,AI小助手也正式开放试用申请,欢迎各位朋友去申请我们的试用名额,来去体验AI时代腾讯会议带来的不一样的开会体验。
有了智能加持的腾讯会议之后,我们也在想,在交互上还能有什么创新。我们虽然开的是一个在线的会议,有了智能以后,是不是还可以让我们更加的真实?所以今天,腾讯会议推出了3D会议能力,希望通过“更小的带宽+消费级硬件”,可以实现一个真正的3D开会交互体验。今天在外面的展厅中,我们专门放了一台裸眼3D会议硬件,如果大家有兴趣的话,一会儿可以到展厅里去体验一下如何开一个3D的会。如果有了这样的3D体验,我们也在畅想,未来在直播带货的场景、教学的场景,你可能看到的不只是一个平面的东西,而是能看到一个立体空间,当有3D的能力时,你可以做一些更加主动的观察,否则你所有看到的东西都是来自于摄像头一个单一平面给到你的,我相信未来这种3D的场景可以让我们在用AI提高效率的同时,也有更加全真体验。
除了AI、更加全真的体验之外,你在网上使用的时候离不开最底层的更加高效的传输网络。今天,我们再次升级了TRTC网络,让全球的端到端互联时间降到300ms以内。不知道在座的有多少人去过非洲,今天我们在国内大家用得都是5G,找不到世界上比中国网络更好的地区。但如果你去到非洲,可能你行进几百米,运营商就会切换一次。通过腾讯的TRTC实时音视频能力,我们在全球已经实现了端到端平均300ms以内的时延,非洲当地最大的音乐媒体平台就用了我们的技术,可以让非洲的兄弟们也可以使用像我们国内这样交互体验,非洲兄弟也赞赏了我们的能力。
刚才Dowson讲到,我们获得了MSU云端视频解码大赛的大满贯,说明我们的产品性能是非常极致的。同时,是我们更加关注音视频媒体处理能力怎么能够实现帮助到客户的业务。过去通过我们媒体处理的能力,我们帮助了很多客户在同等效果情况下,一年内存储和带宽成本降低了超过40%,而在这样的时候,我们又去对比了全球的友商,在同等的码率情况下,我们视频的质量评分是高出20%,又省钱,效果又好。
今天我们也把这样一些传输能力和安全的能力再一次升级成edgeone的平台,在全球享受传输效果的同时具备了安全防护能力,在全球的保护中,我们防御的流量攻击峰值超过2TB。
今天我们讲了,从大模型到应用,如何训练使用大模型,以及技术的升级,我相信技术的革命是永无止境的,每天都会看到技术的进步,腾讯云也会不停地升级我们的产品,希望与大家一起共享AI和大模型带来的技术红利。
雷峰网 (公众号:雷峰网)
雷峰网版权文章,未经授权禁止转载。详情见 转载须知 。