MPEG主席Leonardo Chiariglione:人工智能无处不在,视频无所不知
11月19-20日,以“动能焕新·智慧融合”为主题的世界人工智能融合发展大会在山东济南隆重召开。在11月19日的主论坛上,MPEG主席Leonardo Chiariglione作了主题为《人工智能,无处不在》的报告,并为到场观众分享了自己对人工智能神经网络压缩技术的见解和MPEG的研究动态。
Leonardo Chiariglione是MPEG主席、数字媒体技术和业务领域的专家,曾获得IBC约翰•塔克奖,爱德华•莱茵基金会奖,IEEE消费电子产品奖等奖项。MPEG即动态图像专家组,是ISO国际标准化组织与IEC国际电工委员会于1988年成立的组织,专门针对运动图像和语音压缩制定国际标准。
比起持续在数据中心部署人工智能,本地嵌入无疑是一个不错的方案。随着更多的人工智能组件被嵌入及更为频繁的更新,神经网络压缩技术重要性凸显。Leonardo指出,新的MPEG音视频压缩标准出现后,视频无所不知、人工智能无处不在都将成为可能并带来冲击。
以下是Leonardo Chiariglione的报告原文,亿欧在不改变嘉宾原意的基础上,进行了编辑。
我们正在见证标准的影响力,二十五年前制定的标准到现在依然有影响力,因为他们从细微的方面入手,构建了我们如今的基础设施。
比起持续在数据中心部署人工智能,本地嵌入是一个不错的主意
如果你想部署自适应流媒体,你需要在网络中加入 人工智能 ,那么你就可以考虑使用 神经网络 。尤其重要的是,一旦你部署了这个人工智能组件,它一定不会保持不变,因为 频繁更新是人工智能的一个显著特征 。
谷歌说,如果世界上每一个Android用户,每天使用约三分钟的 语音识别 ,谷歌需要足够多的算力来处理所有的请求,这也意味着,世界上最大的计算基础设施将不得不扩大一倍。
在递归神经网络取得进步的基础上,我们开发了全新的语音识别和语言理解模型,将云端100GB的模型降低到不到半个GB。 借助这些模型,驱动助手的人工智能可以在手机本地运行。这一突破使我们能够创建下一代助手,几乎零延迟地处理设备上的语音。 即使没有网络连接,也能实时进行转录。虽然这还不适用所有的情况,但无疑是个不错的主意。 比起持续在数据中心部署人工智能,我们也可以实现 在本地嵌入 。
更多的人工智能组件,更为频繁的更新,我们需要神经网络压缩技术
围绕25年前的数字电视,我们曾经有一系列的观点。第一个观点是,将会有更多的人工智能组件被运用。如今可以看到, 更多的设备和应用程序嵌入了人工智能组件 。人工智能组件也变得越来越复杂,随着人工智能工具的发展, 人工智能组件也会更频繁地更新 。
人工智能无时无刻不在更新,但如果所有的智能都部署在本地,就会面临一系列问题。如果需要将人工智能组件的新版本部署到数百万个、数十亿个本地设备,这就会需要一个通用的工具来缩小神经网络。在MPEG,我们推动数字媒体产业标准发展,所以对神经网络很感兴趣。人工智能神经网络在多媒体中被广泛使用,可以用于音频内容识别和分类,语音处理,图像和视频编码。与此同时,深度学习需要使用非常大规模的神经网络。
当我们压缩神经网络的时候,第一层能压缩多少?更深的层次又能能压缩多少?其实可以基于所有的神经网络参数进行推理。但不是所有的参数都同等重要,当你在一个设备里置入神经网络,这个设备通常会在资源方面受限。
接下来,让我来分享 我们正在进行的 神经网络压缩 工作 。需要解决的第一个需求自然是压缩,但有一些人不希望性能受到压缩的丝毫影响,这就需要一个无损模式。此外,压缩的神经网络应当是可扩展的,即使只使用压缩的子集,性能仍能发挥一定水平。即使在传输过程中发生错误,也并不导致文件的丢失,这也是要解决的神经网络压缩诉求。此外,基于增量更新,神经网络压缩需要能够从许多来源接收更新,并能够检测到神经网络的压缩调整。你也可以不访问原始的训练数据进行压缩,或者用有限的资源对网络进行解压。
我们正在利用我们压缩各种类型数据的技术,开发用于多媒体内容描述和分析的神经网络压缩表示形式 ISO/IEC 15938 -17。 这一标准有助于用户在多媒体应用中使用深度神经网络技术,并满足图像分类、视觉内容匹配、音频分类等诉求。我们在两年前开始着手这一工作,并计划在一年半内完成,所以这大概会是三年的周期。
在20年前,这项标准是音频、视频和多媒体脚本的集合,后来我们实现了视觉搜索、分析及描述,现在我们正致力于搭建新的移动通信标准和架构。 随着新的 MPEG 音视频压缩标准的出现,视频无所不知成为可能,人工智能无处不在也会成为可能并带来冲击。
编辑:李薇
版权声明
本文来源亿欧,经亿欧授权发布,版权归原作者所有。转载或内容合作请点击 转载说明 ,违规转载法律必究。