标贝科技受邀出席英特尔&智东西公开课《AI百佳创新激励计划在线研讨会》
近日,标贝 科技 作为英特尔AI百佳创新激励计划成员,受邀出席英特尔&智东西公开课《AI百佳创新激励计划在线研讨会》智能语音专场活动,标贝科技副总裁穆向禹博士围绕《智能语音技术的发展和产品落地形态》进行主题分享,与近7000位业内人士一起在线探讨交流了AI技术在智能语音的应用和落地。
据介绍,今年5月,「AI 百佳创新激励计划在线研讨会」由英特尔联合智东西公开课全新策划上线,包括智慧零售、智慧医疗、智慧 金融 、智能机器人、智能语音和智能决策六大专场组成,计划邀请15家创新团队进行专题分享。作为智能语音领域代表名牌,标贝科技应邀出席智能语音专场研讨会。
以下为穆向禹博士分享的主要内容
↓↓↓
01
AI赋能 智能语音遍地开花
智能语音是实现人与机器以语言为纽带的通信。完整的人机对话包括声音信号的前端处理、通过语音识别技术将声音转为文字供机器处理、通过自然语言处理和自然语言理解技术,计算机理解了文字内容,用语音合成技术将文本语言转化为声音输出,从而形成完整的人机语音交互。
人类对机器语音识别的探索始于20世纪50年代,随着计算硬件能力的不断提升和深度学习技术的不断演进,智能语音技术历经了萌芽、突破、产业化、快速应用的发展后,终于进入到一个新的爆发期,迄今已逾70年。
当前,大批国际、国内巨头加速在各垂直行业的渗透和布局,形成了全新的智能语音产业格局。从C端应用的移动设备、智能车载设备、智能家居,到B端的智能客服、智慧教育、智慧医疗、智慧金融等,智能语音应用遍地开花。
02
全面语音能力 加速智能语音产品落地
智能语音交互是基于语音识别、语音合成,自然语言处理等诸多技术赋予语音产品“听清、听懂、回应”的综合型交互技术。常见的语音助手、语音播报、智能翻译等,这些都离不开语音交互技术的身影。
随着智能语音 商业 化应用推动智能语音市场的迅猛发展,从单一的语音产品体验,到更加多样化以及个性化的语音交互体验,AI在各个应用场景落地应用给产业带来了新生机。
从技术发展角度来看,人工智能逻辑推理能力不断增强、运算智能逐渐成熟,目前语音识别、语音合成、机器翻译等交互技术的能力都已经逼近人类智能。未来几年内,更加成熟化的语音交互技术将通过云平台和 智能硬件 产品平台快速实现商业化部署,前景十分广阔。
为推动语音交互技术以更便捷、更普惠的形式赋能企业和个人开发者,标贝科技以一站式SaaS服务平台的方式对外开放AI智能语音服务能力,通过简单易用的SDK和API的接入,即可一键部署各类服务,让开发者轻松搞定产业级应用,加速语音产品的落地。
标贝开放平台的语音合成服务搭载了标贝科技现有的全域发音人模型,提供超过100个精品特色发音人选择,支持在线合成、离线合成,长文本及短文本合成。语音识别提供一句话识别、长语音识别、录音文件识别、自学习工具四种服务,支持中文、英文、粤语和维语四种语言。
此外,为了满足更多合作伙伴的多样化语音定制需求,标贝开放平台还可以提供在线和离线的声音转换、声纹识别、声音理解、语音评测等多种语音拓展能力。
03
人机交互 未来无限可期
AI时代,万物互联已成必然趋势。而智能语音作为人机交互的关键通信接口,随着应用场景的进一步下沉和拓展,面临不少挑战。
对于语音识别而言,由于每一种语言都需要单独采集数据,独立训练部署,不同场景需要有持续学习的能力,效率低成本大;其次,复杂场景下的语音识别夹杂的噪音、混响、白噪声、多人说话等,容易影响机器识别的准确率。
另一方面,虽然近两年语音合成的声音自然度有了很大提升,但还缺少情感表现力,同时由于受限于数据采集和专业知识的限制,无法打造适用于所有场景的语音合成能力。
挑战的背后,归根结底在于关键技术仍有待突破。未来,标贝科技不仅将持续加码自主研发投入,推动技术升级,还将不断从多个维度拓展新的应用场景,持续为客户提供更便捷、更场景化的语音服务,实现技术创新和商业化应用的双赢。