标贝科技多人会议场景语音数据采集让办公效率直线拉满

砍柴网 • 2年前扫码分享

随着智能语音技术应用场景的日益丰富，多人交互场景下的智能语音处理技术受到了越来越多的关注。其中，最为常见的就是会议场景。

当下，会议已经成为职场人日常工作中不可缺少的沟通交流方式。每周大会小会不断，接入会议的方式也越来越多样，例如现场参会、电脑入会、手机入会、电话入会等。而多人会议场景普遍存在语音口语化、环境噪声、房间混响和人声重叠等问题，都会影响会议音频数据采集效果，给实时语音识别、录音文件转写等需求带来挑战。

尤其近几年，疫情影响下，“云办公”需求呈现爆发式增长，越来越多的企业衍生出线上线下协同开会的混合式会议形式。随之而来的，是如何有效应对企业在不同会议场景下的开会需求，减少会议流程、提高沟通效率成为重点关注话题。

无论是线下会议还是线上会议，提供高品质音频都是其核心能力。而且会议形式越多，对于会议音频采集能力的要求就越高。标贝科技深耕AI数据服务领域多年，积累了丰富的复杂场景多人会议数据制作项目经验，可支持多设备多通道的语音录制、覆盖金融保险、医疗、教育、政府机关、房地产等数十个行业领域会话内容。

标贝科技多人会议音频采集方案

标贝科技多人会议音频采集方案模拟真实会议场景，包括大型会议、中型会议和小型会议等多人会议类型，采用线性和环形16麦克风录制，可以有效增强噪声环境中参会人说话声音信号，提升音频采集质量。并将采集到的实时语音数据切分为标准的语音数据包，便于语音处理引擎对语音数据包进行识别处理。

▍方案特点

◆ 模拟会场真实环境，包括会议室墙面(水泥墙、玻璃墙等)，会议室装饰(沙发、电视、电子屏幕、空调、植物等);

◆搭配会议系统，适应室内轻微噪音，包含参会人员非刻意键盘敲击、开关门、空调等声音，拾音清晰;

◆语种支持中文普通话，包含部分中英混场景;

◆录音设备为16麦线性、16麦环形、近讲耳麦手机数据时间对齐误差差小于10ms，说话人角度误差小于10°;

◆可以针对各个角色的语音实时识别，生成单独的录音文件;

◆自研的多设备多通道对齐技术，有效解决时钟不同步问题。

▍适用场景

会议作为多人对话领域中组织高效协同的核心场景，对语音转文字相关应用有着强需求。标贝科技多人会议音频采集方案适用于包括会议纪要、培训记录、实时演讲字幕、访谈录音转写、法庭庭审实时记录等多个场景，为语音识别需求提供高质量音频数据。

政企会议： 用于政府和企业的重要会议、公检法庭审等会议内容记录等场景，高效采集多人发言音频，便于速记并输出与会者发言内容或庭审内容。

演讲培训： 用于企业和个人的公开演讲或内部培训记录等场景，可完整的采集演讲音频内容，用于转写存量音频以及后期校对和整理语音记录。

交流访谈： 用于律师取证、咨询顾问、企业面试、课题等专业领域的访谈语音采集记录，输出访谈内容文稿并转写存量音频。

标贝科技多人会议数据集

众所周知，基于机器学习的各种技术，往往都离不开算法和数据的积累。想要提高会议场景下语音识别的准确率，就需要采集大量的优质会议场景数据作为模型训练支撑。

除了提供多人会议音频采集方案，标贝科技还针对不同的会议主题，精心制作了高质量的多人会议语音数据集，包括了实际会议场景下各种特性，例如停顿、重叠、说话人轮转、噪声等，提高会议场景语音识别准确性。

中文普通话会议音频数据集

语种：中文普通话

录音环境：室内会场真实环境

数据时长：100小时

录音语料：不同主题的自由对话

文件格式：WAV, TXT

语音参数：16 kHz/16 bits

适用领域：语音识别

欢迎对以上数据集感兴趣的行业伙伴联系我们~

标贝科技多人会议场景语音数据采集 让办公效率直线拉满