美摄科技张瑞全：拓展AIGC+数字人的想象空间

砍柴网 • 1年前扫码分享

我是创始人李岩：很抱歉！给自己产品做个广告，点击进来看看。

随着人工智能的快速发展，视音频技术也迎来了蓬勃的发展期。3月31日至4月1日，国内音视频领域盛会LiveVideoStackCon在北京成功举办，众多业内企业、技术专家和学者齐聚一堂，共同探讨多媒体音视频技术在技术升级、业务场景和应用创新等方面的实践和探索。作为视音频技术领域的代表企业之一，北京美摄网络科技有限公司连续六年参会，展示了在AIGC、数字人等领域的领先成果，展现了美摄科技的技术实力和创新能力。

美摄科技研发中心高级AI算法专家张瑞全出席活动，并围绕数字化内容生产快速落地分享了自己的见解。

美摄AIGC数字人基于虚拟视频合成技术，通过综合利用计算机视觉、图像处理和深度学习等技术，可以在无实物的条件下生成虚拟视频。目前主要有三种视频生成技术：语音驱动、动作驱动以及换脸。目前主要存在两个技术难点：一是表情和口型预测，合成视频容易出现音色改变、口型抖动、口型失真等干扰；二是视频帧渲染，如何实现真实面部渲染、防止表情失真，如何获取训练数据，都是要解决的问题。

美摄科技张瑞全：拓展AIGC+数字人的想象空间

张瑞全向与会者介绍了美摄研发中心实现表情和口型预测、3D人脸渲染及合成的技术原理，并详细比较了不同方法的优缺点。据他介绍，美摄科技研发团队已经拿出了相对成熟的技术方案，实现了逼真的虚拟视频合成效果。

以此为依托，张瑞全团队开发出多种借助AI技术快速生成数字人形象的产品应用，包括照片自动生成形象、视频自动生成形象以及GLB模型自动转换形象三种方式。操作者只需上传一张照片或一段视频，录入预设的文本内容，系统就可以自动生成对应的数字人形象，并配以逼真的语音播报口型，大大缩短制作周期。

他特别提到，以GLB生成数字人形象时，可以将其转换为美摄自研的3D文件格式“.ARSCENE”，转换后的效果包可以通过MeisheSDK在不同的平台上实时渲染驱动。GLB文件是以图形语言传输格式保存的3D模型，它以二进制格式存储有关3D模型的信息，包括节点层级、摄像机、材质、动画和网格。

美摄科技张瑞全：拓展AIGC+数字人的想象空间

而谈到近来大热的ChatGPT，张瑞全表示团队目前主要关注两个应用方向。一是智能数字人语音助手，将ChatGPT的混合语义理解能力和美摄已有的语音交互系统相结合，当用户提问一些开放性问题时，数字人助手可以给出更好的回答。二是将ChatGPT、视频剪辑和数字人相结合，用户只需填写一句话，设定好要求，系统就可以通过ChatGPT返回分镜脚本，并从中提取所需标签，由系统从媒资库中智能寻找对应的图像和视频资料。用户可以选择推荐素材，一键套用模板，直接形成预览视频，极大提高视频创作效率。

据张瑞全分享，美摄科技的AIGC数字人方案已经成功落地于多个一线品牌，在智能汽车、智能手表、智能手机、社交软件等领域的产品中都取得了出色的应用效果，为这些产品注入了更多创新和智能化元素。