思必驰初敏:交互式智能服务,风口即将到来
10月27-28日,易观A10大数据应用峰会在北京举行,历经八年,A10已成为中国 互联网 大数据领域最具影响力的思想交流平台之一。大会邀请了思必驰副总裁/北京研发院院长初敏博士做客A10“用户智能”主论坛,以《交互式智能服务》为主题,分享和探讨了人工智能浪潮下的新动向。
从1956年达特茅斯研讨会开始,人工智能经历了兴起与蛰伏交替的漫长之路。近些年,亚马逊Alexa的风靡、AlphaGo在棋场的春风得意又再次将人工智能推向了风口浪尖,资本的注入、技术的创新、产品的涌现,都另这一行业生动不已。世界,也随之改变。
变化,已悄然来临
人工智能驱动企业运营模式变革
从PC互联到移动互联网再到物联网,企业跟客户的触点越来越丰富和多样化。
在传统的互联网时代,大部分企业无法建立与客户互动的有效渠道,企业主要通过广告进行传播,客户很难联系到企业,二者互相知之甚少。智能 手机 的普及让世界发生了变化, 微信 、淘宝、京东类的平台备受欢迎,人们在手机端完成的事情越来越多。在与客户沟通方面,企业逐步觉醒,开始尝试微信、专属APP等途径,建立与客户间的直接接触渠道。
物联网时代,人们拥有的智能设备变得更多。初敏博士表示,每一个智能设备都可以成为企业与客户沟通的触点,随时随地的交互式服务成为可能,但从某种角度来看,也增加了交互难度。此时,企业的销售和服务的形态面临变革。
交互中不容忽视的主体:企业
大众一般都从“人”的视角感受智能设备为生活带来的优化和改变,所以人们将其称之为“生活的智能化”。无论是娱乐服务、 社交 服务、生活助理还是出行服务等等,人们通过各种智能设备获得产品服务,或者说是寻求到了企业的帮助。
但是,人们的智能生活逐渐也暴露出一些问题。
今天被称为智能音箱的元年,智能音箱产品层出不穷,但从实际应用上看,同质化相较明显,服务内容仅仅是音乐、FM、天气查询等,音箱没有成长为用户生活的强需求。初敏博士表示“这是个挑战,将这个挑战延伸出去,是因为没有提供足够丰富的内容”。相对来说,车载场景下的智能设备的应用相对可观,但除了导航功能之外,其他内容服务的交互仍不理想。
初敏博士表示,这主要有两方面的原因,一是交互流程做的不好,二是后端资源的服务不具备相应的能力,即便设备追踪到用户意图,也无法查找到相应的资源。资源服务的调取逻辑与用户的查找逻辑不匹配,从服务端,提供的数据查询和搜索能力不支持,这也会致使整个交互流程出现问题。
就此,初敏博士强调,在人机交互中,除了人和终端设备,还有一个很重要的主体,就是企业,这是不容忽视的。
大风起兮云飞扬
“服务智能化”成为必然趋势
未来企业的竞争力在于服务能力。在交互的过程中,设备只是中介点,最终需要更多企业提供相应的服务。只有企业提供足够的服务后,人才能通过设备享受这些服务。当前每个企业在产品推介、商务合作、市场品牌、客户服务等方面都有强需求,伴随着企业与客户触点的多样化发展,这其中的量和规模非常庞大,降低人力实现“服务智能化”成为必然。
初敏博士强调,这里的智能服务并不是指人们常说的Chatbot,这不是为了chat,而是为了把所需信息以智能服务的形式提供在那里,让客户可以通过不同的入口来查找信息,了解详情,并建立与企业的服务关系。只有足够多的企业提供了服务之后,人们才能真正的享受到这些服务。当前这一领域仍有较大的提升和发展空间。
交互式智能服务的大风正在来临
初敏博士指出,未来若干年,需要交互式的智能服务,人和企业服务之间真正需要的是智能的帮助。
当前花样繁多的智能设备是入口/触点,触点背后的内容才能提供真正的服务,设备具有多样性,很多并没有屏幕,所以语言交互或许会发展为主要形式。但是交互逻辑的组织需要依托更多的信息,例如视觉捕捉表情信息、体态信息、周围场景信息,说话人的上下文信息等,基于这些信息组织逻辑之后,整个的交互过程才会更加理想。
交互式智能服务的难关
第一道难关:语音接入
初敏博士指出,语音接入,是交互式智能服务的第一道难关,也是目前行业视角最集中的地方。
微信语音的使用培养了人们在近场“按住说”的习惯,智能电视、音箱等家居产品将远场交互、语音唤醒等体验引入了大众生活。技术应用也从近场的单麦克风,演变到了适应复杂场景的麦克风阵列,解决声源定位、语音增强、去混响、回波消除等等问题。就这些问题,目前已经有很多方案推出,并不断更新迭代,未来趋势渐好。
初敏博士介绍到,思必驰目前是国内智能设备领域最大的语音技术服务商,在智能设备接入的实践方面积累了丰富的经验,例如,在车载领域推出单麦/双麦方案,在智能电视领域推出线性四麦阵列方案,在智能音箱领域推出环形六麦阵列方案。近期阿里天猫精灵X1、小米AI音箱小爱同学、小米板牙智能后视镜、联想智能电视/音箱等纷纷选择了思必驰语音技术作为支持。
第二道难关:对话能力的大规模定制
解决语音接入的问题之后,更重要问题是对话交互能力的建设。初敏博士表示,智能设备品类多样,每个产品都极具个性化,语音方案的需求同样需要定制,即便是音乐功能,在车载领域的需求和家居领域的需求交互的过程也并不一样。
思必驰作为技术服务商无法替代产品厂商去定义产品。
初敏博士指出,满足产品厂商的多样化定制、新场景添加、效果检测和持续改进、个性进化等需求,才能推进交互式智能的大规模推广。例如在识别合成层面,要支持多唤醒词定制、说话人及声学环境自适应、垂直领域语言特征的自适应、风格化/个性化合成音等;在学习闭环层面,建立数据的闭环,让数据真正流转起来,不断学习,用新的数据不断学习优化;意图理解中要考虑情感因素和环境因素等,这些都非常重要。虽然这些不是系统能够完全自动生成,但要在人干预尽量少的情况尽快的生效。
在此层面,思必驰已做了尝试,推出DUI全链路智能对话定制平台,从核心对话交互系统、云端混合技能服务、场景应用和开发等层面做出了努力,后续思必驰也将不断加强对话交互的能力,在这个平台上为开发者提供更好的服务。
未来之路
知识驱动的交互式智能服务
初敏博士指出,知识驱动的交互式智能服务是未来几年的进化方向。
企业拥有自身专有知识,将知识结构化,并最终使它能够自动交互,就能够极大节省生产力,提高工作效率。对企业而言,其在产品知识、售后方案、人事政策、财务政策等方面都拥有相应的知识,对思必驰而言,这是一个结构复杂的知识集合,即便是比较小的单位体,也存在复杂的知识体系。
建立知识体系,定义表征和实现信息检索的过程,需要平台型的工具,帮助企业或者是行业快速构建知识体系,并以服务的形式存在。初敏博士指出,过去的知识服务是为搜索引擎而优化的,未来,知识服务必然要考虑到交互式的查询和需求。
在此基础上,所有自然语言理解和对话都需要知识来驱动,企业最终会拥有自己的专用数据和知识,并最终会生成相应的自然语言理解模型、对话管理的模型等。初敏博士表示,这是我们未来要做的事情,帮助企业将自身的知识转化成可交互的,未来是知识驱动的交互智能。
开放的心态站上风口
未来几年,知识驱动的交互智能的风口即将到来。初敏博士指出,谁能站在这个风口上,有两方面因素很重要:一是基础能力,就思必驰而言,拥有数十年的语音技术积累和实战经验,在核心技术、计算能力、数据积累等方面有坚实的根基。二是持续创新能力,即如何深化迁移学习、强化学习、自适应等技术的研究应用,让机器向人的方向进一步进化和发展。
初敏博士表示,站在这一风口,必须拥有开放的心态和眼光。真正实现AI产业化,单独依托一两家企业无法完成。不同企业、不同行业都有专用知识资源和特长,只有通过更加开放的合作,才能建立有机生态。思必驰目前专注在垂直场景下的智能语音服务,未来也将通过更加开放的方式与业内伙伴进行合作,推动整个行业的大发展。
开放共赢,竞合有序,下一个时代篇章会更加精彩。