腾讯AI手语解说亮相冰雪赛事:业务能力媲美真人
2022北京的冰雪赛场热闹非凡,相信即使没有看比赛这几天来你也一定被金牌、谷爱凌等热词刷屏了。
而和我们一起在屏幕前关注中国健儿们表现的还有一群处于无声世界中的特殊人群,尽管他们能够看到赛场上的精彩画面,不过对于赛场细节的解说却无法传入耳中。这些听障人士了解世界、对外沟通主要借助手语,以往我们经常能够看到央视等电视台的新闻节目中伴随的手语播报。而为了提升听障人群的观赛体验,手语解说这次也应运而生。
在日前央视频APP的赛事视频中,一位担任手语解说的漂亮小姐姐出现在画面下方,见证了中国队夺金的各场比赛。与过往那些经验丰富、身经百战的手语老师们不同,这是她首次进行手语解说工作,却有着完全不逊于前者的准确度和反应速度。
仔细了解后才知道原来这次为央视频提供手语解说服务的并非真人,而是由腾讯打造的3D手语数智人“聆语”。
业务水平高超,“聆语”是怎样炼成的?
如你所见,“聆语”有着高度接近真人的面部形象以及肢体动作,这为其塑造了与真人手语翻译无异的亲和力,在手语表达能力上,“聆语”具备以下四大特性:
-
一是语言翻译准确,能够将健听人语言准确翻译转化为聋哑人所能理解的手语,可懂度可达90%
-
二是结合了逼真的面部表情唇动,更有助于观众理解语义
-
三是手语动作连贯自然,除了能够准确表达手语词外,不同的手语词间也能够实现顺畅过渡
-
四是能够快速迭代新词、热词,及时理解和更新比赛相关词汇,“小栓子”、“谷爱凌”都能准备表达
为了打造这样一个具备拟真形象和高超手语翻译能力的数智人,腾讯云小微联合了腾讯PCG AI等技术团队,综合运用了3D数字人建模、多模态交互技术、机器翻译、语音识别和自然语言理解等技术。
比如“聆语”的外观形象和动作便依托了3D光照扫描还原、面部肌肉驱动、表情肢体手势捕捉等技术,做到了高度还原真人发肤,动作自然不生硬。
在最关键的手语表达上,“聆语”基于《国家通用手语词典》的标准手语,和深度的机器学习训练,以及针对体育、艺术等专业领域的优化补充,目前共掌握约160万词汇和语句。在解说比赛时,会先通过机器翻译将比赛解说的健听人语言低延迟转化为高准确率的手语语言表征,再运用腾讯多模态端到端生成模型,进行联合建模及预测生成高准确率的动作、表情、唇动等序列,实现自然专业且易懂度高的手语效果。
并且“聆语”具备快速学习补充新词热词、根据业务场景快速学习专业用语的能力,像应对本次赛事手语解说就针对体育赛事方面的用语做了定向优化,覆盖了超过15000个相关词汇。
赛事解说之外,手语数智人前景可期
投入多部门的技术力量打造服务于少数弱势群体的手语数智人,除了基于腾讯“科技向善”的理念和愿景外,也有手语翻译/解说在现实运用层面的需求。
虽然手语是听障人士沟通和理解事物所依赖的重要方式,但由于精通手语翻译的人才偏少,在面向大众的视听内容中手语翻译覆盖范围低,以往国内多数电视新闻、文娱节目无法保证能配备同步的手语翻译,更遑论网络视听内容;同时手语存在较大的区域方言差异,国家在2015年推出的通用手语,仍需要持续的推广,传媒节目由于需要对大量复杂语句进行肢体动作上的实时表达,往往准确度、可懂度并不高,也依赖于全国性的媒体节目进行手语“普通话”的持续普及。
而像“聆语”这样以数智人形象呈现的AI手语翻译出现,正有利于解决上述的两大困难。作为AI产品的“聆语”能够几乎无限制地广泛部署,解决专业手语翻译数量不足的问题;而其基于机器学习的表达能力随着时间推移相比真人也会更为精确可懂。
2021年10月广电总局在《广播电视和网络视听“十四五”科技发展规划》也提到,要推动虚拟主播、动画手语广泛应用于新闻播报、天气预报、综艺科教等节目生产,创新节目形态,提高制播效率和智能化水平。
因此可以预见的是,在国家及相关企业推动下,未来“聆语”及类似的AI手语翻译、手语主播将会被部署运用在体育赛事之外的其它视听节目当中,给予听障人群更友好的观看体验,在大型会议、活动直播、影视作品等方面的运用也有着可期的前景。
值得一提的是,AI手语主播只是腾讯在数智人业务探索方面的其中一个方向,据了解腾讯云小微联合PCG AI、AI Lab等团队打造了多个数智人方案,涉及金融、传媒、政务、家居、教育、展会等多个领域。
比如用于为在线客户进行智能化服务的银行数智员工,用于引导开户的证券交易客服,协助旅客查询信息办理业务的民航数智地勤,以及展会导览助手、景区导览助手等,这些数智人都有着强大的AI能力,未来在各行业中无疑将扮演越来越重要的角色。
雷峰网雷峰网雷峰网 (公众号:雷峰网)
雷峰网原创文章,未经授权禁止转载。详情见。