天冕科技获《语句压缩法、装置、电子设备及可读存储介质》
近日,天冕 科技 宣布在语音处理领域取得重要突破,获得《语句压缩法、装置、电子设备及可读存储介质》的专利,该技术能够显著提升外呼机器人对用户复杂语音输入的理解能力。这项专利技术不仅解决了传统算法在处理长句子时的匹配难题,还通过非监督学习方法大幅降低了语料标注成本,为智能客服行业带来了全新的解决方案。
在外呼机器人应用场景中,用户经常以较长的口语化表达来回答问题,而知识库中的标准问句通常较为简短。这种“长句匹配短句”的需求给算法设计带来了巨大挑战。尤其是当面对有限语料和高昂标注成本时,深度学习等监督生成方式难以发挥优势。此外,口语化表达中常见的“口水句”进一步增加了识别用户意图的难度。
目前,长句压缩技术主要分为两类:抽取式(extractive)和生成式(abstractive)。尽管生成式方法在充分语料支持下表现优异,但在少语料场景下,抽取式方法更具有实用价值。然而,传统的TextRank算法直接应用于客服口语场景时效果不佳,主要原因是其未能有效处理口语化特征和冗长句子结构。
针对上述痛点,天冕科技提出了一种结合句法分析、长句分割、去口语化和TextRank算法的多级压缩方案,实现了将复杂的长句压缩为简洁明了的核心信息。本方法采用了两级压缩:第一步是过滤掉无意义的口水句和口水词,第二步通过TextRank和主干提取进一步压缩句子。通过这种方法,外呼机器人能够更好地处理复杂且冗长的用户输入,提升理解和响应的效率,将最终筛选出的核心句子合并为一句,确保输出简洁且完整。
该技术具备以下核心优势:
1.整体方案专为外呼机器人设计,适用于复杂口语环境。
2.创新性地采用逗号、句号、问号混合规则实现长句分割。
3.充分利用TextRank算法和主干提取的优势,兼顾语义完整性和简洁性。
4.提供两级压缩策略,第一级过滤口水句和口水词,第二级结合TextRank和主干提取完成深度压缩。
5.非监督学习方法大幅降低语料标注成本,适应小规模数据场景。
通过该技术不仅提升了客服机器人对复杂用户表达的理解能力,还显著降低了开发和维护成本。该技术有望广泛应用于 金融 催收、客户服务、智能问答等多个领域,更精准地把握客户需求,提升服务质量和客户满意度,助力企业实现更高效、更人性化的客户互动。