讯飞医疗刘洋:“简单粗暴”的AI系统已成为过去

雷锋网  •  扫码分享
我是创始人李岩:很抱歉!给自己产品做个广告,点击进来看看。  

近期,雷锋网 (公众号:雷锋网) 医健AI掘金志邀请科大讯飞医疗市场与解决方案部负责人刘洋,做客雷锋网公开课,以“讯飞语音技术在疫情中的创新应用”为题,详细介绍了讯飞医疗在语音技术在感知智能、认知智能层面的探索与最新成果。

后续将有更多课程上线,添加微信公众号  医健AI掘金志  在公众号聊天框回复“听课”,进群可收看本节课程视频回放。

刘洋认为,AI技术的应用才是王道,场景选择有时比技术选择更加重要。其次,在切入各个应用时,要避免传统的、简单粗暴的端到端解决方案;最后,创新医学和人工智能结合的路上,应该跳出单纯的技术或者算法创新。除了选择场景,选择什么样的数据,用什么样的方式获取数据,这也是构建各种人工智能医学应用需要深入思考的问题。

在演讲中,刘洋围绕智医助理电话机器人、智能医学语音录入、放从医院隔离点智能管理三大方面,分享了讯飞医疗在实际应用成果。

以下为刘洋演讲全文内容,医健AI掘金志做了不改变原意的编辑

我是讯飞医疗的刘洋,感谢雷锋网的邀请,今天分享的主题是《讯飞语音技术在疫情中的创新应用》。在进入正题之前,我分享一下自己对于医疗AI应用的观点:应用才是王道,场景选择有时比技术选择更加重要。

其次,在切入各个应用时,要避免传统的、简单粗暴的端到端解决方案。

深度学习在很多领域里都发挥了巨大效能,例如人脸识别、语音识别,但是在医疗领域,可能还要更加谨慎。医学的出发点之一就是保障患者免受伤害。

所以在训练模型,包括选择具体的切入点时,一定要注意,系统一定不能过于简单粗暴。否则,市场会给我们非常严酷的教训。

第三,我们在创新医学和人工智能结合的路上,应该跳出单纯的技术或者算法创新。除了选择场景之外,选择什么样的数据,用什么样的方式获取数据,这也是构建各种人工智能医学应用需要深入思考的。一些传统的数据可能不适合深度学习算法。

首先看一下,讯飞从成立到现在走过的历程。

讯飞医疗刘洋:“简单粗暴”的AI系统已成为过去

现在是讯飞医疗的第4个年头,我们是2016年在讯飞内部孵化的一个独立团队,目前秉承着两条技术主线。

第一条主线是围绕讯飞的主赛道——智能语音层面,主打是面向智慧医院、便于医生使用的工具。

第二条主线是围绕认知智能层面——如何去构建基于医学认知智能的辅助诊断系统。2017年,我们较早地与中科大第一附院共同建设智慧医院,将语音应用到诊疗的各个环节,例如导医、语音病历还有智能随访。

此外,2017年,我们参加了国家执业医师考试的笔试测试,得到一个非常不错的成绩。

基于这两条路线,最近三年,我们在产业和应用上不断探索。

2018年,我们把基于医考的技术,尝试在基层开展人工智能辅助诊断应用,从一个社区做到一个县,2019年,我们已经覆盖了50个县。

截止2019年底,在人工智能基层辅诊方面,我们已在全国超过100多个区县得到应用,覆盖将近4万的基层医生。

在语音交互层面,我们也从早期的单点语音识别,包括语音电子病历,慢慢向综合的门诊解决方案扩展。

现在,讯飞医疗有300多名员工,10%的员工都是具有临床背景的医生,也正是在临床和技术两方面的储备下,我们才有今年的成绩。

在医学和人工智能结合的道路上,不能只看技术。我们一直和医院、主管部门还有客户学习,也达成了很多的战略合作。

另外,讯飞也承建了很多国家的平台,包括唯一一个认知智能的国家重点实验室,也入选科技部的新一代人工智能五大创新平台。

我们积极跟医疗、卫生行业的各种协会、联盟合作,共同推进人工智能在行业良性的发展。

讯飞的技术积累

我分享一下讯飞在语音层面的技术积累。

讯飞医疗刘洋:“简单粗暴”的AI系统已成为过去

随着深度学习技术的发展,可能会有人认为语音识别的门槛没有以前高,实际上不完全是这样。

对于通用场景下的语音识别,大家确实可以用一些开源工具,包括一些开源模型,很快地构建起来。

但是,应用场景现在越来越复杂,客户对于语音识别的要求越来越复杂。比如如何在远场识别做到比较好的收音、降低混响,以及嘈杂环境下,如何去提高收音效果?

这些是目前语音识别的主流方向,讯飞拥有十几年的技术积累,每年也会参加一些国际知名的语音识别大赛。

可以看到讯飞对于复杂场景下的语音识别已经做的很好。也正是因为有这样的技术积累,我们能够比较快地在各种应用场景下快速构建相适应的模型。

我也会跟大家分享一下,为什么在医学场景里面,抗干扰的能力以及远场识别是如此重要。

第二个领域是语音合成,合成,就是让机器像人一样发音。如果是不追求情感,不追求自然、连续的话,快速构建这样的能力并不是很难。但在现在的场景下,越来越要求我们能够实现很好的自然度,还有连贯、柔和的合成效果,让声音听起来更具情感,技术挑战非常高。

所以,如果大家对语音合成感兴趣,希望大家能够技术选择和工程实践时,更多去考虑怎么让声音更加有特色。

现在,像高德地图里各个明星的声音,都是讯飞利用公开的语料自动合成的,效果已经可以做得非常自然。

在医学领域,很多患者、居民在听到语音服务时,也越来越要求声音更加个性化,而且具有关怀感。这就对语音合成的效果提出非常高的挑战。

讯飞医疗刘洋:“简单粗暴”的AI系统已成为过去

这是在国际知名的Blizzard Challenge比赛里面,我们也是连续14年全球的冠军。

讯飞医疗刘洋:“简单粗暴”的AI系统已成为过去

除了语音领域之外,讯飞医疗团队在其他一些医学领域的AI技术积累上,也一直保持领先的的状态,包括每年也会参加一些国际上知名的公开数据集测试,包括像LUNA、IDRiD,也包括像肝脏分割等等。

最后一部门,也是比较难的领域——认知智能的突破。

讯飞医疗刘洋:“简单粗暴”的AI系统已成为过去

前段时间,获得图灵奖的LeCun,还有英特尔几位大咖,他们都表示,人工智能的未来,一定属于实现认知智能突破的机构和团队。讯飞很早加入这个领域,在自然语言理解、认知智能推理等领域,我们都有非常强的技术积累。

我觉得,认知智能在医学中的应用,有非常好的应用前景。医生进行临床学习时,要通过大量阅读医学文献,这给机器在知识图谱构建,还有自然语言理解的基础上带来挑战。如果有一些突破的话,对于构建辅助医生工作的虚拟助手,是一个非常好的技术积累。

讯飞医疗刘洋:“简单粗暴”的AI系统已成为过去

基于上述的技术积累,我们才有可能在2017年通过这项考试。这件事对我们最大的帮助是,让我们看到人工智能在很多领域的巨大作用。

但是,我们依然认为,现有的人工智能还处于弱人工智能状态。

当然,这次医考也给了我们非常强的信心:基于现有的NLP技术,我们有可能去打造一个具备全科医生潜质的AI系统。

讯飞医疗刘洋:“简单粗暴”的AI系统已成为过去

讯飞医疗在构建产品时的一个基本思路是,通过人机耦合的方式,一方面让机器承担更多的事务性工作,让医生把更多的时间留给需要人文关怀和专业知识的患者;

另一方面,我们让机器去学习、沉淀临床专家的知识,通过可计算的方法,去赋能基层医生。

因为今天的主题是讯飞医疗语音在医学,尤其是在疫情防控中的一些应用,所以我选了三个题。

过去4年,我们在医学语音交互与临床结合过程中,曾经探索过非常多的方向,有些方向沉淀下来,还有一些方向,我们认为可能是一些伪需求,或者是技术上还不可达的需求。

讯飞医疗刘洋:“简单粗暴”的AI系统已成为过去

第一个,电话机器人。电话机器人可以归类到聊天机器人,从业务逻辑上看,电话机器人并不难,无非就是有一个人工智能的后台,可以自动响应居民、客户的问题。

如果是基于这样一个命题,我们去构建模型,很大概率会因为搜索空间的“爆炸”导致产品或者算法的不可解。

如果想把这个产品真正给居民服务的话,需要把这个题降维:

第一,先从呼出做起,不要考虑很复杂的呼入场景,因为呼入场景的问题非常开放。对于开放场景的聊天机器人来说,Siri或者是Cortana做的都不是特别好,最后有可能会答非所问。如果在医疗场景下进行这样的尝试,很可能会误导我们的患者。

所以,重新定义这个问题非常重要。

所以,我们做的第一个降维就是把“呼入”这个场景优化掉。因为“呼出”可以让机器人去主导聊天,让人类去做机械式响应。这样可以把问题的复杂度降到系统、算法、资源可达的程度。

第二、呼出覆盖哪一种场景?是做一个通用型的呼出,还是基于决策树的细分场景呼出,我们要考虑到哪些场景能够真正可行。

第二,居民在听的时候,不会轻易地挂断电话,所以我会结合这两个问题,带大家看一看,讯飞是如何进行选择的。

按照目前的实验方法,我们设计了一套大概能够覆盖80%业务的话术。医生在选择外呼服务之前,是通过话术模板来定义一个或n个推广方案,然后选择被随访的人群,剩下的事情由机器进行自动化地执行和并发执行,这也是我之前提到的人机耦合的方式。

人做人类擅长的部分,机器做机器擅长的部分,实现好用的同时,进而实现商业转化。

讲一讲在电话机器人这个领域里,我们需要关注的技术。

讯飞医疗刘洋:“简单粗暴”的AI系统已成为过去

第一、语音合成。我之前提到,如果想做到好用,这里面,那么语言合成要尽可能自然、生动,这里可以用很多方法,可以用TTS的方法,然后调优,也可以用录音拼接的方式。我觉得这都不是绝对的,关键是看你最终要做成的产品,它所面对的场景是什么?

比如说一个简单的通知,你没有必要用TTS的方法去做,因为有可能自然度不高。如果是需要多轮对话、自定义字段比较多的话,用拼接方法可能就不经济。那么,应该考虑选择一个比较合适的TTS模型进行语音合成。

第二、需要考虑的是电话信道下的语音识别,考虑到成本问题,大家在选择外呼电话时,优选的话是基于 VIP的方式,但是它本身信号的采样率会非常低,会导致进行语音识别的原始音频信号是压缩的,可能会有大量损失。

对人来说没有太多的问题,因为人耳已经经过几万年进化,具有很强的容错能力,但是对于机器来讲,这样一种音频就找不到相应的边界;其次,相关算法不能适应这种高压缩的音频信号。

第三个就是语义理解,为什么这点非常重要?

做一些复杂场景的电话交流时,要考虑上下文。而且非常关键的问题在于接听的居民或者患者,对于同一个问题的回答,会有多种表述方式。比如问是否去过武汉?包括去过湖北,用户可能会说,好像是路过一下。

在这些情况下,要对不同的回答具备相应的语义理解能力。所以在制定电话机器人时,对于语义的理解和识别,要考虑针对不同的场景,如何做到高效的配置。对于企业来说,要考虑到每个产品或者模块的研发成本的,

第三个就是多轮对话,对于外呼场景来讲,这点可能还好。但是我们要考虑的问题是多轮对话的管理。此外,在这个过程中,如何去引导居民快速实现信息或者数据的获取。

总结下来,如果这些技术都能实现,我们就能做到更好的智能交互,根据用户的不同类型,选择不同的语音合成模型,也包括通过认知智能技术进行话术、语义的理解。

我也分享一点经验。早些年我们测试时,也用过播音员的语音合成模型,也用年轻或者年老的声音。

但是,真正在提供外呼服务时,我们给客户更多的选择,可以选根据不同的采访对象,选择不同的声音。比如,对于老年人,采用轻快的声音,他可能听不懂,因为老年人的反应跟理解能力会有欠缺。因此,第一,发音要慢。其次,受访者会有很多反问的场景,比如他说“没听清,你再说一遍。”

所以,后续在设计多人对话时,要多考虑这些问题,这是技术层面。解决了这些技术层面的问题,只是做了这件事情的第一步。从科研角度来看,这是没问题的。但是,如果把这样的技术变成产品推向市场,还有很多问题需要解决。

此外,对话可能会被打断、可能会被挂掉、有可能答非所问、有可能延迟,都有可能导致语音识别的错误,使得聊天没有更好的办法进行下去,我们要从功能还有产品的交互设计角度去考虑。

讯飞医疗刘洋:“简单粗暴”的AI系统已成为过去

电话机器人一旦上线,就像核武器一样,它是个大规模杀伤性武器。

但是,如果你们没有和运营商或者电话标注的团队进行很好的合作,那么群呼号码可能会被标志成一个骚扰电话。即使你的技术做的再好、合成效果也很棒,但是变成了一个骚扰电话,这样依然没办法触达我们的客户。

另外,主管部门会考虑,当电话机器人具备上千次的并发量时,发布的内容要带有一定的责任感,尤其要避免违法违纪的信息。还想再提的一点是人机协同。人机协同主要是什么?就是说,即使现在机器人的能力已经很好,但是依然存在不能解决、不能回答的问题。

怎么办呢?最好的方法就是增加转人工的方式,遇到解决不了的问题,可以跳转到人工。比如说,方言的普通话的支持。基于我们全国几千万通的电话统计分析,如果机器人说的是普通话,接听人大部分也都会用普通话回答,但是很难避免带有口音的普通话。

这就需要你的系统,尤其是语音识别的引擎,支持多方言场景下的高效识别。

下面我简单列举一下我们之前做过的场景。

讯飞医疗刘洋:“简单粗暴”的AI系统已成为过去

这是2018年的语音合成模型,声音听起来还是有些太正式,刚才是在基本公共卫生随访的场景下,大家能从实际录音中听出来,患者比较配合。

但是居民的回答情况有非常多不相关的内容,尤其是语音合成越好,这种情况就会越明显。我们的系统在识别语音之后要进行结果的提取。

这是我们从大年腊月27、28,就开始积极准备疫情防控的电话语音机器人。从1月份到疫情高发的2月底,我们的团队都没有休息,也保障了全国将近30个省和直辖市的智能疫情防控工作。

讯飞医疗刘洋:“简单粗暴”的AI系统已成为过去

对于六大人群,尤其是返程人员、居家隔离、重点人群等,我们在非常短的时期内一共上线100多套话术。

为什么上线这么多话术?这也是我前面提到的,如何去降维这个过程。如果把所有的话术揉在一起,耦合的太紧,产品的设计、算法的设计会具有非常大的风险。不同的话术,对应的就是一个典型的应用场景。

在疫情之前,我们也一直在做常态化的应用,目前,与家庭医生签约、基本公共卫生相关的一些应用,我们可以覆盖80%以上、需要人类打电话完成的工作,我们有上百个话术模板。这些模板也可以供基层医生应用。

讯飞医疗刘洋:“简单粗暴”的AI系统已成为过去

这是我们疫情提前应用的情况。截止上周末的数据,我们每周都会新增近100万的外呼量,也可以看到最近时间输入型疫情更多,从地图上能看出来。

像黑龙江、内蒙、新疆,是最近这段时间疫情电话活跃的地方。我们的平台在疫情期间承诺免费提供给客户,让机器人覆盖更多场景,帮助客户减少简单机械的劳动。

这个场景我讲的时间多一点,这是一个非常典型、综合的场景,包含了语音识别、语音合成、语义理解等多项技术。

现在,除了台湾省还有香港外,全国所有省份都在用我们的智能语音外呼服务。

智能医学语音录入

智能医学语音录入很好理解,相当于我们做了一个医学版本的语音输入法。

讯飞医疗刘洋:“简单粗暴”的AI系统已成为过去

很多研究机构都做过相关的统计:医生在职业生涯里面,有80%以上的时间是进行医学文书的整理和录入工作。丁香园也做过一些调研,国内的一些住院医师每天要花4小时以上的时间写病历。

如何去降低医生的工作强度,提高文书的录入质量,这也是摆在各级医护人员面前的难题。

从逻辑和业务上,这个问题很好理解,做一个语音识别就好了。但是实际上在国内很多的地方,发达地区或好一些。但是在更多的情况下,全国中西部地区的很多医院还做不到。左边这张图是我们经常遇到的就诊场景,这种场景显而易见,不适合用语音录入。一是,无法保证隐私;二是,现场环境会有大量杂音录入系统。。

我们面对的第一个问题是,如何降噪,尤其在开放环境下如何去降噪。第二个问题,医学语音录入只能解决转写的问题,也就是“所说即所得”。但对于医生来说,他要的不是“所说即所得”。

例如,大家平时使用转写服务,会发现有很多废话,还有语气词、助词,这些词不适合直接写到专业的医学系统如电子病历里。

这就需要我们把与诊疗无关、不规范的表述进行调整。

这是我们最早做的一个场景,在口腔领域做语音电子病历。除了过滤闲聊的内容,系统还要做到医学专业表述的自动替换,像一些牙位图、计量单位、体征数据,都要转换成临床医生习惯、符合临床管理要求的文书。

因此,语音录入只解决了信号输入和转换的问题,真正要在临床上有价值,还是需要做语义理解。

讯飞医疗刘洋:“简单粗暴”的AI系统已成为过去

第一步,解决降噪的问题。通用的方法大家都知道,做麦克风阵列,再加语义层面上的内容整理,我们做过很多版本,可以提一下我们新的应用模式:基于4G模块的麦克风即插即用,不用装任何软件,就可以实现类似于医学云的输入。

它可以应用于各种场景,麦克风除了降噪,还有很强的指向性,只收录医生的语音。

软件层面,在语音识别引擎里,讯飞输入法会把大量语气词进行优化,这是一个基本的解决方法。相对复杂的模式,基于我们的硬件和语音识别能力,我们可以多往前走一步,跟具体的业务系统结合起来。这就是我们早期在做门诊语音电子病历等事情的逻辑。

讯飞医疗刘洋:“简单粗暴”的AI系统已成为过去

一开始做医学语音录入时,很多人的想法是我讲的简单的端到端方式。但是,做到一定程度之后,你会发现这种方式并不能完整解决用户的问题。除了病历本身所要具备的功能之外,这里有非常多的问题。

例如,语音识别出来的结果,怎么达到电子病历规范的管理要求。这里面有一个非常明显的例子:医生问患者,还有什么地方不舒服吗?

患者会说一些词不达意的话,怎么把患者的语言从医生声音里面剔出去。其次,怎么能够把医生录入的信息自动匹配到电子病历的具体位置上,比如哪些话应该录在主诉的位置,哪些话录入检验、检查,而且匹配到具体的位置,这需要与业务系统进行深度融合。

大家可能会想到一种方式,做接口就好了,这是一种方法。但是对于第三方的厂商,做电子病历比较厉害的,像嘉和还有其他大厂,他们的版本不容易为你的语音识别进行定制化改造。

因此,虽然你可以给他提供相应的API和接口,但是他们获取到的也只是前面提到的转写数据,对于这些厂商来讲,需要一个翻译的过程,就是把转写的东西匹配到具体位置,再上传到电子病历的具体位置。

基于我的经验来看,很多厂商做的并不是特别好。因此,就需要考虑自己做一套更适合语音的电子病历。

当你去基于我们的某种技术去解决一个具体的应用场景,一定要考虑,符合人工智能应用的数据如何整理、采集、呈现?

为什么我们会做一个相对完整版的语音电子病历?因为识别之后,怎么把这些信息上传到病历里,这里有非常多的细节,需要我们在应用过程中打磨。

讯飞医疗刘洋:“简单粗暴”的AI系统已成为过去

这是另外一个场景,把语音识别匹配到一个超声报告的具体位置上。例如,产科医生在检查时,并不会按照报告模板上的位置来写,他可能先看到胎心,也会先写羊水深度。

因此,我们就要自动去匹配相关的位置,然后填到相应的模板里去。

前面讲了通用场景下的语音识别和转写,包括把语音识别转写的结果和一些具体的应用系统融合的解决方案。这次疫情期间,我们也给一线医生带来一些简便的应用,帮助他们减少医学文书工作。

讯飞医疗刘洋:“简单粗暴”的AI系统已成为过去

左边是在武汉的某一家方舱医院应用场景,右边是湖北另一家医院影像科医生写报告的场景。

方舱医院隔离点智能管理

基于我们的移动医生护理系统,我们做了一个轻量版的应用,帮助各级方舱医院的医生去进行更好的管理。

讯飞医疗刘洋:“简单粗暴”的AI系统已成为过去

患者从医院出院之后,要到方舱医院隔离14天,如果检测结果呈阴性,还要回到家中再康复14天。按照疫情管理的规范,临床医生需要从头到尾管理患者的健康。

讯飞医疗刘洋:“简单粗暴”的AI系统已成为过去

这就给医护人员带来非常多的工作量,每天需要去看一下患者在家隔离的数据。基于这样的场景,我们拿相对成熟的云医生的移动医护助理,然后改成一个康复智能护航系统,主要就是为了解决移动查房,包括患者体征数据手机和健康宣教。

目前,这个产品覆盖湖北全省17个地市,539个隔离监测点。医生要给居民下达一些健康处方、医嘱,可以用语音的方式录入。患者上报体征,也可以用语音录入。

讯飞医疗刘洋:“简单粗暴”的AI系统已成为过去

最后提两个其他应用,一个是在全国近百个区县做的基于医学认知的基层全科CDSS系统,这也是讯飞医疗非常重要的一个方向,我们坚信人工智能具备全科医生的潜质,对于国家医改、提升全民健康素养是非常重要的。

这次疫情中,我们也发现很多基层医疗机构,因为缺乏必要的检查工具,也缺乏新冠肺炎临床诊疗指南的能力。除了冲在一线的医生,基层的医疗力量没有最大化。

在疫情爆发前,我们的智医助理就按照临床指南上线了这种新冠肺炎的诊断模型,让几百名医生具备早期筛查新冠肺炎的能力。

除了提高诊断的合理率之外,还可以从源头上去规范电子病历,提高临床数据质量。

讯飞医疗刘洋:“简单粗暴”的AI系统已成为过去

这是我们医学多模态和多场景下的语音工具在全国的应用情况。目前北、上、广还有浙江一些顶级医院在应用,也非常欢迎大家通过我们这个平台,一起去为客户打造更好的医疗AI应用。

这就是今天我分享的主要内容,谢谢大家。 雷锋网

随意打赏

提交建议
微信扫一扫,分享给好友吧。