最聪明的人工智能电视——小米电视4A是如何炼成的? 最聪明的人工智能电视——小米电 ...
上个月, 小米 发布了一款新电视——小米电视4A。这次发布会距离小米电视4的发布仅过去了2个月。小米电视4A的发布有个小背景,从去年下半年开始,因为原材料价格的大幅上涨,2月份,小米电视3s已经涨价了500-600元,刚发布的小米电视4虽然还未上市销售,但4.9mm的厚度以及超窄的边框,注定了它在价格上不是一个“小米式”的产品。
小米电视4A被称作回归高性价比之作,不过同时,王川也给这款电视带来了一个新特性—— 人工智能 ,这是“小米首款人工智能语音电视”。发布会上,王川的演示获得了全场掌声,尤其是他说出诸如“小岳岳追车的画面”、“邓超和张天爱第一次见面的场景”的指令,小米电视4A准确跳到相应画面时。
这些让人惊叹的智能背后,需要语音识别以及自然语言处理的支持,三角兽正是为小米电视提供语义理解技术的公司。日前,雷锋网采访了具体负责这个项目的三角兽技术合伙人陈华荣,聊了聊他的职业经历,小米电视4A的人工智能背后的秘密,以及语义理解在垂直领域的商业化应用。
三角兽技术合伙人陈华荣
陈华荣:从Bing的Answer系统到三角兽的聊天机器人
2005年,在中科院软件所获得计算机软件与理论专业硕士后,陈华荣就加入了微软,并先后在北京和微软西雅图总部工作。2013年,他回到了北京,在Bing部门负责中日韩的Answer系统。所谓Answer系统,即向用户提供结构化的显示结果,用户不用离开搜索引擎,就能获取到需要的信息。
如上图,当你搜索《芈月传》时,第一条搜索结果会直接出现这部电视剧的信息、海报、简介和每一集的视频链接,而且来源于两个不同的视频网站。百度和Google也有类似的系统,它们通常以卡片的形式向用户展示。
Answer系统和普通搜索结果的最大区别,是它力求准确而不是关键词的相关性。陈华荣向雷锋网解释,这主要依靠工程师对数据整理的准确性。对结构化的数据,如电视剧评分,系统会直接抓取,而对于半结构化和非结构化的数据,则需要先抓取下来,再做语义分析,然后以结构化的方式呈现给用户。对于视频类信息,系统则通过接入API的方式,直接把视频网站的数据呈现出来。
这个工作和三角兽目前专注的语义分析其实是匹配的。而在微软这样的大公司,即使有小冰、Cortana这样的产品,它们的一切也要围绕微软的战略进行,这是最让陈华荣感到掣肘的地方。所以,在2016年,当三角兽的CTO,也是陈华荣在微软的同事亓超找来时,他毫不犹豫地加入了后者。
让自然语言理解的服务应用到更多领域,打造一个语义理解的大脑,是三角兽的愿景。现在,三角兽专注的领域之一,任务驱动的多轮对话是陈华荣负责的重要工作。所谓任务驱动的多轮对话,即用户带着明确的目的来,通过自然语言的交互方式,快速解决自己的问题,如订餐、看电影等。
多轮对话的目的,是因为和人类正常的聊天一样,单独一句话通常不能明确表达需求,这就需要系统通过反问、反复确认来一步步明确用户的需求,并返回结果。这已经超越了简单的语义理解加信息检索的过程,而是一个在对话过程中不断明确需求的决策过程。这也是聊天机器人解决实际问题的基础。
模糊语义识别:你把电视剧名字记错了,我依然能给出正确的结果
陈华荣告诉雷锋网,三角兽此次为小米电视4A准备了一整套的语义理解方案,而小米根据自身的产品需求和排期,主要选择了模糊语义理解和视频问答两个部分。
所谓模糊语义识别,即在用户输入模糊的、不准确甚至错误的信息时,依然能给出正确的搜索结果。因为小米电视使用了语音作为交互方式,输入时,用户的语调不同,就有可能出现错误信息,另外,当用户记忆不清时,也经常会给出错误的搜索词。
陈华荣举了个例子,前段时间有一个很火的电视剧叫《老公们的私房钱》,而用户则可能错记为《男人们的私房钱》。这个时候,三角兽的技术就可以返回正确的结果。
对于模糊语义识别的实现过程,陈华荣介绍,三角兽在视频这个领域建立了语义纠错的语言模型,会处理字形像(半 -芈)、模糊音(肖生克 - 肖申克)、同音不同字(路遥知马力 - 陆垚知马俐)、语义相近(男人们 - 老公们)等等的问题。在该模型的基础上三角兽做了特别的处理去做索引建库。
当用户的查询(query)过来后,经过纠错模型去作特别的处理后,再到数据库中尽量地召回相关的视频;之后,排序(Rank)模型的特征在纠错模型的基础上,结合大数据挖掘的信息,如热度、评分等等,对结果进行重排序,从而把用户想要找的视频正确的检索出来和进行了语义上的纠错。这也是三角兽可以把“男人们的私房钱”纠正为“老公们的私房钱”,“肖生克救赎”纠正为“肖申克的救赎”的原因。
视频问答:剪刀手爱德华的男主角还演过什么电影?
视频问答系统,可以看成是影视百科,包含视频简介、演员百科、剧中的角色、该演员还演过什么电影等各种信息。这样,当用户用语音询问诸如“剪刀手爱德华的男主角”时,系统就能给出正确的答案。
不过,问答系统的功能远不止于此。发布会上,小米也做了很多展示,某些时候,它甚至超出你的想象。比如,“剪刀手爱德华的男主角还演过什么电影?”、“《肖申克的救赎》是哪一天获得的奥斯卡奖?”“小李子什么时候拿过奥斯卡金像奖?”等,问答系统都能给出答案。
而陈华荣告诉雷锋网,这些其实是很成熟的技术。首先,对这些语句进行理解并不困难,整个实现过程最大的难点,在于数据的提炼,也就是说,要将影视剧的各种信息提取出来,并提炼出各种标签,然后通过检索、排序,匹配用户的需求。
和问答系统实现过程类似的是电影搜索,唯一的不同是对用户的指令进行语义理解后,不是直接返回答案,而是到数据库里去检索相关的电影,并作重排序返回结果。这个功能的实用性更高,比如你甚至可以直接让电视找出“只有一个人出演的电影”、“主角一开始就死了的电影”等。
(网络上散步着大量诸如“主角一开场就死了的电影”的信息,需要系统先抓取,再进行语义分析和信息提炼)
现在,对于影视剧信息,打标签的大部分工作已经可以做到自动化。系统首先从影视剧的官方网站、豆瓣、贴吧、各种评论中抓取信息,再对这些信息进行挖掘,自动提炼信息。另外,对一些知名度高的头部内容,三角兽也会用人工的方法进行标注,匹配用户更多样化的自然语言搜索需求。
陈华荣还告诉雷锋网,未来,三角兽还将与小米电视在多轮对话方面展开合作,以对话的方式,更准确地匹配用户更加个性化的需求。
例如,当用户发出指令,“我要看《天龙八部》”时,系统会返回非常多的结果,为了更好地理解用户,多轮对话系统会主动询问“您要看电视剧还是电影?”如果用户选择了电视剧,系统可能会再次询问用户要看什么版本,直到给出用户满意的结果。
进行多轮对话时,自然语言处理系统的关键一步是对对话状态的追踪,即根据多轮的对话来确定用户当前的目标到底是什么的过程。在这个过程中,系统要确认是讲当前的状态与前一个状态是冲突的,还是要将两个状态进行合并。举个简单的例子,用户想看刘德华的电影,但是对搜索结果不太满意,他就可能转换目的,“张学友的电影”,这个时候,系统已经按照两个状态冲突来进行处理,在结果中呈现张学友主演的电影;但是,如果用户说了“和张学友的电影”,系统就会把两个状态进行合并,呈现刘德华和张学友一起演的电影。
所以,在 智能电视 的应用上,对影视数据的更精细化的提炼,以及对上下文的准确理解,是语义理解当前的一个难点。小米电视的应用,已经是一个开始。
语义理解大有“钱景”:智能客服、商场导购、车载系统、机器人、音乐……
除了任务驱动的多轮对话系统,三角兽的专注的另一个领域是开放域聊天。和要解决用户具体需求的多轮对话系统不同,开放域聊天指系统能对用户的任何问题给出回应,它的目的更多的是建立情感联系,拉近和用户的距离。
在陈华荣看来,未来,开放域聊天会成为多轮对话的标配,没有前者,系统会显得呆板、机械,也很难给人智能的感觉。而开放域聊天和多轮对话、智能问答在一起,可以在很多领域有很好的应用。现在,三角兽已经在几个领域有了应用:
金融领域:恒生电子
三角兽为这家给证券、银行、基金、期货等提供技术支持的企业开发了客服机器人系统,为用户解决开户,股票、基金投资信息等服务。
三角兽的客服系统的优势在于语义理解系统,可以分析非常多样的用户提问,理解用户的真实意图,然后对应企业问答库中的答案。
零售领域:香港新世界
三角兽提供了智能问答和多轮对话系统。比如在商场中,系统会推荐热门的餐厅,也会在用户提问时,通过进一步的引导,来明确用户想要吃中餐、西餐,或者一人食还是聚餐的需求。
目前,该服务主要通过微信公众号提供。系统还集成了开放域聊天技术,用户也可以进行闲聊。
媒体领域:光明网
两会期间,三角兽为光明网的“小明AI两会”提供了技术支持(详见雷锋网之前的报道),分析了 40 多万篇有关媒体报道和官方报告对其进行训练,从29万个词汇中挖掘出近5000 个与两会相关的关键词,并据此整理出针对每一位代表委员的个性化报道。
车载环境:威马汽车
主要是威马汽车车载前装音乐和导航模块。在陈华荣看来,车载环境是语义理解应用非常好的垂直领域。因为这个环境里比较封闭,用户的需求无外乎导航、寻找附近的银行、餐厅,打电话等。
2015年,有一款叫Vinci的所谓智能头机的产品,吸引了很多关注,但也引来了不少非议。现在,Vinci已经转而主打语音交互,其背后的语义理解技术,同样由三角兽提供。陈华荣还透露,三角兽正在与另一家大公司合作,更深入地进入音乐和智能音箱行业。
未来,让银行网点中不再需要柜台人员,以及对老人、小孩进行情感陪护,抑或通过IoT设备,通过自然语言的方式控制各种家具设备,都是三角兽的目标。
</ <