钉钉会议更新数字分身、对话生成虚拟背景等AI功能
8月22日,“骑到AI背上去”2023钉钉生态大会在上海举办。在数字员工专场分论坛上,钉钉副总裁、音视频事业部负责人赵加雨发表主题演讲,分享了钉钉音视频在智能化方面的进展和应用,以及基于钉钉AI PaaS,视频会议场域未来的开放展望。
赵加雨谈到,钉钉从4月就宣布要全面接入大模型,完成智能化再造,随着AI与音视频的结合越来越深入,钉钉会议里也实现了诸多创新应用,除了之前的实时翻译、字幕转写、智能摘要,这次还发布了数字分身代替参会、自然语言控制会议操作、文生虚拟背景三项新功能。其中,数字分身可以在会议时间发生冲突时,替代用户列席参会,并能实时同步相关会议信息和结论。
他表示,未来,钉钉音视频希望能将更多的场域开放给生态伙伴,共同构建丰富的、有价值的应用,提升用户的体验和效率。同时,钉钉也计划将音视频SDK嵌入生态伙伴的应用中,共同打造优质、易用的音视频解决方案,满足不同行业和场景的需求。
以下为赵加雨的演讲全文:
体验和智能化,是钉钉音视频事业部过去一年两个核心的关键词。
在体验方面,去年我们成立了专项,从内到外做了大量的优化,现在钉钉会议的整个界面交互上,会更美观、更便捷、更沉浸。同时,在底层技术架构上,从采集、播放、编解码、网络到服务端,我们也做了全链路的优化。音视频尤其是视频会议,我们开会的时候最基本的诉求就是能够开好会,听得到对方的声音,所以我们在音频算法、抗弱网方面做了提升,也期待大家可以多使用我们的钉钉会议。
讲到智能化,其实视频会议这个领域在这次大模型之前,就和AI做了非常多的结合,在音频算法、视频算法中融入了AI技术。比如,视频算法相关的AI应用,有美颜、虚拟背景,这些都是大家非常熟悉的场景应用。而音频算法也结合了AI实现更好的降噪效果,目前,钉钉会议上已经支持消除300多种常见噪音,比如 汽车 喇叭声、键盘敲击声,让用户开会更专注。
我们在会议里还有一种常见的需求就是字幕,本质上也是AI能力。现在钉钉会议里也全面接入了阿里通义听悟,支持中英日三种语言的互译,实现实时的转写和翻译。此外,还有智能导播,大家在会议室开会时,如果有线上同事一起加入讨论,就会出现坐得太远听不清,或者说个话对方听不到的情况。我们的蜂鸣鸟音频实验室将AI和原创差分阵列技术相结合,可以实现单会议设备10米远举例拾音。当发言人说话时,支持精准的声源定位,实时跟踪并放大他的头像,让每个发言人都成为C位,营造更好的对话感。
随着大模型时代的到来,我们也进行了相关的研究,希望用大模型把钉钉会议重做一遍。今天钉钉推出了全新的AI PaaS智能化底座,并面向生态伙伴开放。在钉钉会议里,我们利用AI PaaS也实现了非常多有意思的功能。
第一,是会议数字分身代替开会。职场人士每天都会面临文山会海,文山现在我们通过智能文档帮大家解决掉,会海我们也做了一些尝试,为用户提供了数字分身这个能力。如果你会议冲突或者这个会议和你的关联度没那么高,就可以让你的数字分身代替你去开。开会过程中,你可以通过钉钉魔法棒的对话框,主动给它设置一些任务,比如关注特定的话题,当有人讨论到这个话题时,AI就会自动通知你而且告诉你相关内容。你也可以设定数字分身每隔几分钟给你发送一个会议总结,还可以主动和数字分身对话,了解各种信息,比如会议里有哪些人、大家有没有产生什么争议,会议结束还会自动推送会议摘要给你。
第二,是用自然语言做会议智能控制。过去有很多用户吐槽钉钉功能太多,入口不好找,钉钉会议其实也面临这个问题,虽然我们做了大量简化,但是钉钉会议这个产品对一些用户来说使用门槛依然有点高。今天我们通过钉钉魔法棒里的智能助手把功能操作简化掉,你只需要通过自然语言提出你的需求,AI会自动识别意图并帮你完成操作,比如会议里人太多的时候,有人不小心开麦了,你去找到这个人并把它静音掉会比较麻烦,你可以告诉AI把正在说话的人静音,拉人加入会议的时候也可以直接打字拉人无需关心入口在哪里。通过这些能力,我们让会议的操作、管理变得更简单。
第三,是文生虚拟背景。虚拟背景一直很受用户喜爱,尤其是过去几年,我们“祖国的小花朵”们把这个功能玩出了花,一会在“太空里上课”,一会在“大草原上上课”,我们日常工作中也会用到,可以有效避免背景杂乱的尴尬。以前大家用虚拟背景除了已有的模板图片外,自己需要导出去搜索下载图片上传,现在不用了,我们通过文生图自动生成虚拟背景,彻底解放想象力。
接下来,钉钉会议也将通过AI PaaS逐步做应用的开放,帮助合作伙伴做场景升级,未来更多的生态产品可以嵌入到钉钉会议中使用,比如面试、白板等应用。比如我们近期正在和招聘合作伙伴共创的面试助手,面试过程中对话AI就可以通过简历内容、沟通信息得到实时的辅助。我们希望做好体验和开放,在智能化的时代,和生态伙伴一起给用户带去更多有意思、有价值的场景应用。