标贝科技语音合成体验又升级 24K新音色及字级别时间戳同步上线!
开车途中,有清晰明快的智能语音导航为你播报最新路况;
拨打咨询电话,有温柔甜美的智能客服为你答疑解惑;
家庭生活里,有活泼可爱的语音助手为你省下不少麻烦操作;
甚至当你不想看书,还有各种情感合成声音为你营造带入感十足的听书体验……
当前,随着智能语音交互越来越普及,声音逐渐成为生活中重要的一部分。而合成声音赋予语音产品不同的“性格”,让其与用户的沟通更加“人性化”。
伴随着语音合成技术应用不断深入,应用场景的日益多样化对声音效果也提出了更高的要求。如何赋予合成声音更多的情感表现力和个性化功能,成为各大智能语音产品快速占领市场的核心竞争力。
品质升级
为满足各行业客户的多元化 商业 需求,此前标贝 科技 已经上线了一批24K高保真音色,细腻饱满的情感表现力赢得客户一致好评。近日,标贝科技再上线4个24K新音色,包括2个中文发音人、2个美式英语发音人,每个声音都经过精挑细选,各有特色。
▍24K中文发音人
童声贝童:声音纯真可爱充满活力,适合故事阅读、语音助手等场景
男声贝明:声音温和,稳重可信,适合智能客服、产品解说等场景
▍24K美式英语发音人
男声贝洛伊:声音清晰明朗,高仿真人,适合新闻播报、语音导航等场景
女声贝汉娜:声音亲切自然、富有情感,适合有声阅读、影视配音等场景
功能升级
不仅声音质量提升,此次标贝语音合成还全新上线字级别时间戳功能,给用户带来更便捷的画音同步体验。
使用智能语音配音的朋友经常会遇到一个问题:在视频播放过程中,变成声波的语音,很难控制目前需要读到了哪一句、哪个字,无法灵活实现声音字幕和画面同步匹配的效果。
针对这个问题,标贝将过去的音子级别时间戳优化到字级别时间戳,即用户在使用语音合成服务输出音频流时,通过标贝字级别时间戳,可以实现实时输出每个文本在音频中的时间位置。尤其是,不仅可以准确的对齐文字,数字、引文、特殊符号等也能直接对齐到原始文本,不需要其他转换的工作,有效解决了画音同步的难题。
在应用场景方面,标贝字级别时间戳可以赋能有声读物、视频配音体验。例如,有声新闻、有声故事、儿童读物等设备大多支持屏幕根据播报声音显示文字。但是现有技术只能做到整行整句显示字幕,儿童无法根据声音来认字学字。标贝字级别时间戳则可以根据朗读的声音,在设备屏幕上实现逐字高亮显示,让用户快速、准确的定位当前播报的文字,也方便了儿童听音识字。
标准化TTS定制推动智能语音产业规模化发展
据前瞻网统计,2020年中国智能语音市场规模达到113.96亿元,同比增长19.2%,预计2026年中国智能语音市场规模将进一步增长,达到326.88亿元。随着人工智能应用的普及以及基础设施成熟,智能语音作为人机交互的重要入口,将迎来大规模商业化落地阶段。
优质的声音是智能语音产品获得良好用户体验的第一要素。要求合成声音不仅具备情感表现力,更要匹配当前的业务场景需求。标贝科技基于强大的数据能力及深度学习技术,提供标准化TTS定制服务,可以满足不同层面客户的定制化需求。
例如,赋予智能客服更具人情味的音色,让用户感受真实可靠;打造语音助手的专属声音IP,与用户产生情感互动;为有声阅读提供丰富的情感合成音色,带来更具沉浸感的听书体验……
目前,标贝科技累计语音合成音色种类多达100余种,包括男声、女声、老人、童声等多音色,中文、英文、中英混读、小语种、方言等多语种,广泛服务智慧 金融 、教育、电子商务、安防、自动驾驶、泛娱乐等多领域。未来,标贝科技将继续以技术创新为核心,持续优化服务能力,打造更优质、更落地的语音交互方案,为企业创造更大的商业价值,为智能语音产业高速发展贡献力量。