ChatGPT爆火，声网从大模型角度洞察RTE行业全新机遇

砍柴网 • 1年前扫码分享

我是创始人李岩：很抱歉！给自己产品做个广告，点击进来看看。

自从OpenAI发布ChatGPT以来，各行各业都在聚焦大模型做不同角度的延伸，基于时下备受关注的RTE领域，声网首席科学家钟声也从大模型的角度带来了智能化趋势与实时互动相关话题的分享，共同探讨RTE行业面临的全新机遇。

钟声指出，从Bing搜索到Office ，ChatGPT已经被微软接入到了各个业务线里。从运营支撑系统和业务支撑系统的维度来看，ChatGPT是一个“Game Changer”，它进来以后，对客服、搜索、助手都是有明显帮助的。有数据显示，有人在ChatGPT上的聊天时间比平时多了5倍，这个趋势可能会让娱乐、咨询、学习、方案、决策、诊断、设计、写代码等从业人员自身难保。

ChatGPT可以生成让人难以想象的内容和广告，从搜索、算法推荐，再逐步过渡到内容完全监管，给在座的我们带来了很大的威胁。Facebook有1200万商户在投放广告，大家可以试想一下，这些广告都可以使用算法生成。或许，以后主播、用户产出的UGC内容都不如算法带来的这些内容更有趣、更有深度和广度。

面对ChatGPT的进化，相关从业人员可以重点关注以下五个方面。

1、性能云计算、存储、智能芯⽚和⾼效AI算法。一是DSA（架构），领域相关的架构并且做存算一体，量子计算等。推理芯片需要降低成本，即便像现在的ChatGPT，它推理部分的成本仍然很高。二是DSA（算法），为领域定制，理论上要少4、5个数量级，才能长期维持下去。

2、ChatGPT的数理能力比较差 。有人把ChatGPT和另外一个数理工具Wolfram/Alpha连在一起，让ChatGPT吸Wolfram的能力，以此提升在数理计算的精确度。举个例子，有一家医疗公司上线了DocsGPT，它可以帮助医生做它最不想做的事，比如把账单送到保险公司、写病历等。另外，Meta此前发布的LLaMA大模型没有OpenAI那么大，但它做了70亿、130亿、650亿的好几个模型，所以往这个领域深钻，让小模型小一点，再专注于自己的特长，并非一定要做像GPT-4这样全能、智能，通用的人工智能。

3、大模型面临数据资源不够。 再过几年，当可供AI高质量训练的数据不够时，它的进步就会很受限。现实生活中产生的UGC、AIoT、摄像头等各种各样的数据，基本能够用来完善或解决已知的问题，但未知的问题怎么办？是不是可以用AIGC自己补充、合成数据的方法把它接入到数理软件上，用计算机程序和数据去补充高质量的训练数据，这里最重要的还是看AI是否能够自己产生数据。

4、核心技术。 我特别主张在边缘和端上多加智能化的算法和芯片优势。跟Web3.0的思路一样，如果未来被几个少数的中心化AI控制，人类命运可能真的会被主宰了。所以，适当把智能分散，让智能泛在是很有必要的。此外，边端上的能力个性化、隐私也很重要。

5、智能泛在。 如果大数据无处不在，用AI算法来学习大数据，然后泛化这个智能，只需一个索引就能把它检索出来，比如生成视频。

举几个例子，音“融”笑貌，了解我的人，听到我声音就知道我讲话的样子，甚至能想象出来我的神态；“笑”逐颜开，像动补、面部，用部分的关键信息就能够在另外一处重构视频形象；心想“视”成，AIGC按你喜欢的方式生成一段满足你个性化需求的视频。

钟声还针对“声网生成式AI技术”做了详细分享，他指出，声网生成式AI技术聚焦为RTC/RTE领域提供更好的服务，可以实现超分、超质、超音、超流、超测、超帧、抠图等。

以在声网SDK上集成的，仅靠语音数据生成视频或驱动的“超音”案例来看，左边输入ChatGPT的数据，右边就可以达到1080P或者更高的分辨率。从移动端上实现的面捕实时驱动案例来看，由于模型比较好，想要移动端覆盖高，就不能只盯着高端手机。我们对算法做了极致的优化，像我刚才说的超级画质一样，可以一帧1080P。在iPhone10或者iPhone11上处理时间不到1ms，4K的视频也能靠软件处理。

未来，ChatGPT大模型的发展必将为实时互动领域带来更多的机遇以及挑战，我们只有提前谋划，提前布局，才能更精确的踩在风口浪尖。