上线全球首个3D AI合成主播,揭秘搜狗分身背后技术
昨天,两会召开全球瞩目,相关话题更是热搜不断。其中,搜狗推出的全球首款3D AI合成主播“新小微”,在新华社两会报道节目中一亮相便凭借其高度逼真的外貌形象、自然流畅的播音状态及灵活自如的肢体动作,受到 媒体 及网友的高度关注。
“新小微”的诞生之旅
“新小微”是基于搜狗人工智能核心技术“搜狗分身”打造的全球首个3D AI合成主播,其以新华社记者赵琬微为原型,具备根据文本内容实时播报新闻的能力,并且能实现其表情唇动、肢体动作能与语音表达的高度契合。那么“新小微”背后究竟有什么样的黑 科技 ?
首先是针对海量数据的扫描采集。基于原力数字科技的支持,用几百个摄像头对佩戴着数据采集头盔的赵琬微的身体各个部位进行360度全方位“打点”扫描,以采集每一处细节,并对其多种形态的表情和动作进行细致入微地捕捉、记录。
数据采集完成后,搜狗会利用影视级科技和业界顶尖的扫描还原算法,以及面部肌肉驱动、表情肢体捕捉等技术,生产出高度还原真人皮肤、形象极度逼真的3D数字人模型。
最后,再通过搜狗分身业内领先的多模态生成算法,实时驱动、渲染该3D数字人模型,使其面部表情唇动、肢体动作和语言表达实现高度契合。值得注意的是,目前市场上为数不多的3D数字人大多以真人驱动为主,而“新小微”则是依靠AI算法实时驱动的,这让“新小微”具备了根据文本语言与场景,自由管理自己的动作、表情与服装的能力。
“新小微”的炫酷技能
“新小微”与搜狗AI合成主播天团中2D AI合成主播前辈相比,最大的不同就在于其的3D特性,丰富了播报形态,可以从不同角度进行全方位的呈现。具体来说,“新小微“支持多机位多景深,并具备转身、走动等复杂肢体动作的能力,这就实现了”新小微“不用再被局限于固定位置进行新闻播报,而可以根据具体的新闻内容语义及节目效果来进行更加“拟人”的播报。在推近景时,其高度逼真的形象甚至经得起特写镜头对皮肤毛发逼真度的考验;同时,“新小微”的表情也更加多样化,甚至能透过微表情表达自己的“情绪”;另外,基于“微模块化”设计,“新小微”甚至可以根据不同新闻和场景变换自己的表情、发型、服饰。高度逼真的外形及高度的灵活可控性,都极大增强了“新小微”的可塑性。
作为搜狗黑科技的最新代表作,“智能”当然是3D AI合成主播最不容忽视的特色。“新小微”能够根据用户输入的文本内容语义,通过多模态生成算法实时驱动渲染出表情唇动、肢体动作和语音表达高度契合的新闻播报,达到与真人无异的自然表达效果。
搜狗分身技术未来的想象空间有多大?
搜狗作为AI合成主播的创立者,自2018年与新华社推出全球首个AI合成主播“新小浩”后,不断升级“以语言为核心”的各项AI技术,构筑搜狗分身的行业壁垒。随着3D AI合成主播的推出,搜狗AI合成主播品牌下具备了2D和3D两条技术线,可匹配不同行业的场景需求,在更多领域为智能化解放行业生产力带来更多新可能。
科学技术是第一生产力,搜狗分身通过上线2D AI合成主播提升了媒体人新闻生产的工作效率;此次推出的3D AI合成主播则将 传媒 行业的内容生产流程也提上了智能化的日程。“AI赋能于人”,未来搜狗还将继续升级搜狗分身技术,以更多分身产品让行业、企业与个人都能体验AI带来的便利。