回顾微软30年沉浸式3D音频、声学领域的研究历程

砍柴网 • 4年前扫码分享

我是创始人李岩：很抱歉！给自己产品做个广告，点击进来看看。

来源：映维网作者颜昳华

对于自然用户界面，游戏，虚拟现实和混合现实，以及普适计算（ubiquitous computing）而言，获取正确的声音是一个关键因素。音频在盲人或低视力人群的辅助技术中同样扮演着重要的角色。尽管过去数十年间的计算机已经能够播放和处理高保真音频，但语言或沉浸式声场的计算识别、分析和渲染方面依然存在一系列有待探索的前言。

自微软研究院于1991年成立以来，音频一直是团队重要的研究领域。在成立的第一年里，研究人员就利用音频数据和其他线索探索视听演示文稿的自动摘要。

多年来，微软研究院在语音识别、自然用户界面、捕捉和再现声音、空间音频、声学模拟和音频分析等方面都取得了稳定而显著的进展，而且大部分都有应用于诸如Windows10、Kinect、HoloLens和Teams的微软产品和服务，以及福特的同步车载信息娱乐系统，Polycom的视频会议设备，诸如《战争机器》和《盗贼之海》等游戏。

在下面的时间线里，微软将与我们回顾团队在音频和声学研究方面的历史进程：

回顾微软30年沉浸式3D音频、声学领域的研究历程

1. 语言识别和自然用户界面

2002年：微软的研究人员建立了“Sound Capture and Speech Enhancement/声音捕捉和语音增强”项目，并开始始探索诸如减少回声、麦克风阵列处理和降噪等领域。

相关论文：Gain Self-Calibration Procedure for Microphone Arrays

相关论文：A New Beamformer Design Algorithm for Microphone Arrays

相关论文：Reverberation Reduction for Better Speech Recognition

相关论文：Microphone Array Post-Processor Using Instantaneous Direction of Arrival

2007年：福特发布了第一个版本的车内信息娱乐系统SYNC，其中语音增强音频管道最初是由微软的研究人员设计。

相关视频：Natural Language Moves In-Car Infotainment Forward

相关论文：Unified Framework for Single Channel Speech Enhancement

2007年：Windows增加对麦克风阵列的支持。微软发布了WindowsVista，包括对四种预选麦克风阵列几何结构的支持，以及对USB麦克风阵列的标准化支持。之后，Windows 10已经能够支持任意几何形状的麦克风阵列。

相关论文：Sound Capture and Processing: Practical Approaches

2010年：微软为Xbox360发布了Kinect，其中包括首个免手操作开放式麦克风命令和带有环绕声回音消除功能的控制产品。

相关论文：Beamformer Design Using Measured Microphone Directivity Patterns: Robustness to Modelling Error

相关论文：Optimal 3D Beamforming Using Measured Microphone Directivity Patterns

相关论文：Data Driven Suppression Rule for Speech Enhancement

相关论文：Kinect Development Kit: A Toolkit for Gesture- and Speech-Based Human-Machine Interaction

2016年：微软在这一年发布了HoloLens，它包含一个四元麦克风阵列和一个复杂的声音捕捉和语音增强系统，可用于捕捉用户的声音和周围的环境声音。

2017年：研究人员开始探索用于语音增强的神经网络。微软在这一年建立了“Neural Networks-Based Speech Enhancement/基于神经网络的语音增强”项目，并旨在实现更精确、更可靠的语音处理，尤其是在移动设备、可穿戴设备、智能家居和物联网设备。与以前的设备不同，所述设备带来了全新的挑战，如噪音更大的背景环境，更大的扬声器与麦克风距离，以及有限的边缘处理能力。

相关论文：A Causal Speech Enhancement Approach Combining Data-driven Learning and Suppression Rule Estimation

相关论文：A Hybrid Approach to Combining Conventional and Deep Learning Techniques for Single-channel Speech Enhancement and Recognition

相关论文：Convolutional-Recurrent Neural Networks for Speech Enhancement

相关论文：Constrained Convolutional-recurrent Networks to Improve Speech Quality with Low Impact on Recognition Accuracy

相关论文：Limiting Numerical Precision of Neural Networks to Achieve Real-time Voice Activity Detection

2019年：微软发布HoloLens 2。这款设备包含一个五元麦克风阵列和复杂的声音捕捉和语音增强系统。同时，研究人员在2020年初开始探索其语音增强技术的关键组件。

相关论文：Weighted Speech Distortion Losses for Neural-Network-Based Real-Time Speech Enhancement

相关论文：Acoustic Localization using Spatial Probability in Noisy and Reverberant Environments

2020年：Microfoft Teams的语音增强。微软首席执行官萨蒂亚·纳德拉（Satya Nadell）在这一年宣布，Microfoft Teams的优化将包括基于神经网络的语音增强算法。

回顾微软30年沉浸式3D音频、声学领域的研究历程

2. 支持协作和生产力的音频

1991年：微软的研究人员发表了第一篇与音频相关的论文，其主要是关于多媒体演示文稿的自动摘要。

相关论文：Auto-Summarization of Audio-Video Presentations

1996年：微软的研究人员探索了在交互式环境中使用视觉数据捕捉和渲染声音的方法。

相关论文：Vision-Steered Audio for Interactive Environments

1999年：在这一年里，微软团队在音频检测和分类方面取得了长足的进步。

相关论文：Detection of target speakers in audio databases

相关论文：A Robust Audio Classification and Segmentation Method

2001年：微软在这一年建立了RingCam项目，并旨在探索360度视频会议。

相关论文：Distributed Meetings: A Meeting Capture and Broadcasting System

2007年：微软RoundTable在这一年提供了扬声器检测技术，由微软研究人员开发的言语检测技术成为了微软RoundTable系统的一部分。这项技术后来卖给了Polycom，并作为Polycom CX5000的一部分发布。

3. 捕捉和再现声音

1998年：微软研究人员开始试验麦克风阵列，他们建造了第一个麦克风阵列。

2005年：微软的研究人员建立了“Audio Devices /音频设备”项目，并构建和评估了两个USB麦克风阵列原型：一个四元线性阵列和一个八元圆形阵列。

2007年：微软雷德蒙德研究中心搬进了Building 99的新家。这个建筑包括公司的第一个消声室。

相关论文：Robust Design of Wideband Loudspeaker Arrays

相关论文：Sound Capture System and Spatial Filter for Small Devices

2009年：团队对Building 99的消声室进行了改造，使其可以自动测量3D方向性和辐射模式，包括人类的空间听觉。它使用亚毫米精度的三维扫描仪测量头部和躯干。除此之外，这使得能够实现更逼真空间音频的头相关传递函数（HRTFs）的开发成为可能。

2012年：为了使用球形和圆柱形函数来研究声场，微软研究人员建立了一个16通道球形麦克风阵列和一个16通道圆柱形麦克风阵列。值得一提的是，团队在2016年构建了一个64通道球形麦克风阵列。

2017年：微软研究人员提出了一种使用超声波来进行手势识别的新方法。这种方法的功耗显著低于光学系统。

相关论文：Ultrasound-based Gesture Recognition

相关论文：Hardware and Algorithms for Ultrasonic Depth Imaging

相关论文：Multimodal Gesture Recognition

2018年：微软研究人员开始探索实况360度音频和视频流式传输。

相关视频：Live 360 audio and video streaming

2019年：微软的研究人员建立了Denmark项目，其旨在利用由诸如智能手机和笔记本电脑等普通消费者设备成的虚拟麦克风阵列来实现会议对话的高质量捕捉。

4. 空间音频

2012年：微软的研究人员开始探索空间音频的新方向，开始研究与头相关传递函数（HRTFs）的新方法。这项工作的一个潜在成果是实现更为真实的空间音频。

相关论文：HRTF Magnitude Modeling Using a Non-Regularized Least-Squares Fit of Spherical Harmonics Coefficients on Incomplete Data

相关论文：HRTF Magnitude Synthesis via Sparse Representation of Anthropometric Features

相关论文：HRTF Phase Synthesis via Sparse Representation of Anthropometric Features

相关博文：Microsoft 3D audio tech makes virtual sounds sound real

回顾微软30年沉浸式3D音频、声学领域的研究历程

随意打赏

最好的Meta，与转向的微软

免费体验：微软Copilot开放“深度思考”，你的专属AI策略顾问

微软专利探索Copilot新用途：化身AI心理专家，提供情感关怀

直接与iPad Pro竞争！微软正开发小尺寸Surface Pro：搭载骁龙X

告别玩游戏繁琐切换窗口！微软Win11 Edge游戏助手正式上线

微软解绑：OpenAI获更大AI算力自主权，携手软银、甲骨文等启动5000亿美元“星际之门”项目

微软Win11 KB5050085多个隐藏功能：开始菜单迎来新布局

微软Win11新体验：端侧AI推进自然语言搜索，升级Click To Do实现圈选即搜

特朗普、马斯克与微软CEO会面，讨论人工智能和网络安全问题

微软首席执行官示好特朗普、马斯克：将在人工智能领域投资800亿美元