面对越来越火的机器人市场,我们到底应该关注什么?
编者注:本文根据 IDG 资本的合伙人牛奎光、科大讯飞 AIUI 负责人马汉君、图灵机器人联合创始人杨钊、Rokid 联合创始人兼 CEO 黄伽卫和Emokit 创始人兼 CEO 魏清晨在「网易未来峰会」上的演讲整理,文章内容略有删改。
「会话时代」的机器人经济
牛奎光:今天很高兴跟各位嘉宾一起讨论一下智能机器人的事,人工智能我们发现从微软上发布了微软的智能机器人,后来包括谷歌、苹果、亚马逊、Facebook 都发布了自己的智能机器人平台,智能机器人有一个新的名词,叫做「会话经济」。
马汉君:机器人这个事情应该是说最开始 2015 年突然是从以前的物业变成商用,非常普通,我们 2015 年下半年开始发力,机器人这个事情推动了机遇的起步期吧,这个事情的确到现在为止整个行业已经是非常清晰的商业模式,这个方向非常明显,机会是属于前期扩张、快速沉淀的模式,我们一定会参与,而且在这里面和行业一起寻找真正未来能够落地的机会。
杨钊:从 2014 年起,我们也是转向机器人这个行业,因为我们觉得人工智能对话系统是共同的,机器人应该是更自然的交互,从 2014 年开始我们开始做机器人这块的产品和模型,在 2014 年 11 月份发布了图灵机器人的一个对话系统平台,到现在应该是将近 20 万开发者,其实是以我们的力量来迎接和推动整个行业的发展。
黄伽卫:我们是把很多不同的技术集合起来,做一个面向用户的产品,有很多不管技术方面的水平,目前为止我们看到的机会,我们开始看到把这些不同的技术,不管它是 AI 方面的,或者是传感器、硬件,把它融入到一起,觉得很好用,是我们的一个很大的机会。
刚刚我们记得是一个搜索器,牛总说我们是一个做机器人的公司,而且我们看到一个更大的机会,我们认为是叫做通 AI,我们看到一个很大的机会,把 AI 的一切可能放在家庭层面,所以这样的一个产品它也可能长得像机器人,它也可能不是。
所以我们第一代产品去看它的话,它其实不太像机器人,因为他没有手、没有脚,不过它是去把 AI 的那种可能性,比如说很多这方面去想的话,我们去听音乐,整个去做机器人的不会想到听音乐那么重要,我们的产品把音乐体验放大,它背后的 AI 会了解你的喜好。他们聚集更好的音乐给你,他有一个很特殊的灯光的效果,其实我们看到这方面很多新的尝试。刚刚牛总也说到了,国外的据说卖了 300 万台,后面又看到了谷歌发布了 Google Home,它长得不像机器人,但是它是机器人。
机器人应用的两大切入点
牛奎光:我想我们机器人现在看起来的话,主要的应用也应该是两个方向,一个是刚才黄总讲的我们叫做情感类的机器人,更多的是以家庭应用场景为主,还有一类是叫交易型的机器人,我不知道剩下的两位嘉宾对这两个具体应用的切入点怎么看?
谢殿侠:我先接着您刚才讲的那个问题,聊机器人和会话经济还是跟人机交互发展的阶段有关,最早 PC 出现的时候,键盘鼠标是人机交互的媒介。移动互联网手机平板,它的主要媒介变成了触摸,现在智能硬件、包含机器人,我们把 Robot 放在这里面,现在键盘鼠标没有了,触摸屏也没有了,还原到了最自然的人和人之间的交互方式,就是说话,我们必须要学习了。
这意味着任何可能过去的产品服务,过去通过网页来呈现的,通过 APP 来呈现的,现在可以通过聊天对话来呈现了,不管是在手机还是 PC 机上,以及各种各样的智能硬件上,所以从这个角度上来讲,可能现在是一个分水岭,以后人人、事事、物物都可以来交互。
在交互的过程中,如果说是跟情感有关,尤其是做这一块的,人和机器之间聊天,对微软来讲主要是完成任务,它不管你的情感,对小工来讲呢,就是跟你闲聊的,怎么能够消磨时间。这个时候对他来讲情感就会变得非常非常地重要,如果说再深入到更深层面,我们儿童机器人经常聊天,律师机器人帮着判案子,股票机器人可以跟交易对接,再更进一步深入,企业内部企业的管理怎么能够跟这些机器人对接,在报销方面,财务方面制度那么多,我怎么来了解,财务制度那么多,我遇到了什么问题就问。
这种情况下,只要有智库,只要用户的交互方式过去用键盘鼠标,或者是触摸屏,现在都可能会变成是用聊天的方式,对方无非是个人,还是个机器人,我作为一个用户我用我最适合最自然的方式获得我想要的结果,得到我想要的服务。我们刚好在中间做语音的 API,我们做得更垂直一点,各位都可以合作,我们有一些音乐也可以聊,最终帮助我们做最终端产品的能够超越用户的期待。
牛奎光:第二个问题,您现在做语音类里面,你碰到的做交易类型的多一些还是做情感类型的多一些?
谢殿侠:实际上对我来讲,我做交易本质上没有区别,我还有一个观点,支持我们的合作伙伴做面向特定用户,针对特定场景提供特定领域服务的这么一些可能性。语义理解我们关注的点有三个,第一个是懂用户的意图,这是语言层面的东西,跟你有相关性,但是弱。
第二部分我知道你的答案,那好了,这个我们反过来来讲要构建知识图谱,这一块我们会做一些基础的,合作伙伴他可能会有一些他自己独特领域的积累,他有模拟性就可以了,还有一个连接的服务,不论是哪一块,第三方服务的对接。
魏清晨:我非常赞同黄总说的观点,机器人未必像人的形态一样,有胳膊、有腿、有眼睛、有嘴,机器人它只是一些分子而已,其实它背后人工智能的部分,他说过这么一句话,他是在《情感计划》这本书下了一个很重要的结论,如果要让机器实现真正智能,并且跟我们产生自然而然的交互,需要具备情绪识别和表达的能力,就需要具备情感。
其实机器人不光要具备智力方面的一些东西,还要具备情感方面的一些东西,这句话里面渗透两个信息,第一个未来的智能和机器人具备情感是它智力的很重要的一部分。
第二个观点,他认识到情感这一块分为情绪的识别和情绪的表达,不光是让机器人知道我们在说什么,或者知道我们长得怎么样,我说的过程是什么样一种情绪,在这个技术上再做一些匹配的服务,实现这样一些东西,这是我们对机器人的一些想法。
机器人如何听懂人话?
牛奎光:今天来的五位嘉宾也都比较一致,基本上都是把软件作为自己核心的突破的点,我觉得这件事也应该是对的,因为软件,包括计算能力,包括数据的搜集的可获得性,现在基本上都还是在继续以摩尔定律也好,以一个爆炸数在增长,实际上它本身的进展是很难的,今年进展 3% 到 5% 就不错了,未来的创新我的观点也是这样,我觉得可能更多的创新,或者是说你更容易突破的地方可能还是在软的机会上可能会更大一些。
具体再说回来,刚才我们谈到了会话经济,它一个起源和大家认为的机会。再反过来说,它解决了跟用户之间的沟通界面更加自然的一个,叫技术的发展上来讲,深度学习的发展上来讲,它对于自然语言的理解还是有很大的困难,跟之前的语音不一样,语音可能是最早解决的第一个问题,图像和人脸可能是解决的第二个问题。
确实相对来讲自然语言的理解应该是第三个问题,而且这个事情往前看起来还有很多的路要走。所以我想也请因为讯飞也做了大量的工作,我想请马总讲一下在语义的理解上,您认为未来两三年是一个什么样的看法?
换句话说,我们之所以能够让机器人有感情,能够听懂人说的话,未来的两三年之内你认为是一个什么样的进展?
马汉君:其实刚才牛总问到一个问题,你已经把语义分成两端,一个叫做语义和情感,我们在讯飞一种叫做服务,一种叫做闲聊。
牛奎光:应该是一个分法,两种叫法。
马汉君:对,我们这个观点跟谢总刚才讲的略有差异,我们讨论的时候,这两种语义解决的问题是不完全一样的,你像我们举一个闲聊来说的话,先老很多时候我们要解决的问题是说大家是想去跟他进行一些互动。
我想获得的是一种放松,或者是进行一些玩啊为目的,能陪着它一起说下去就好,刚才导航来说,导航的时候我们可能会说我要去哪儿,我从哪儿出发,我大概要考虑什么路线,但是大家很多人也提过这个问题,但是其实在人和人的对话也是一种合理的情况,我们转化成用最少的对话帮你完成你的问题。
可能是你先提了一个问题以后,你要去哪儿,我能主动帮你问出来最主要的问题是什么?所以我们正在解决语义这个事情上面,会有两种手段。所以从讯飞的角度,我们现在来做的会把更多的精力集中在解决一个服务的目标,这是我们的一个重点的工作。
牛奎光:第一个问题是交易型的问题。
马汉君:做闲聊这一块有很大的接触,我们解决的服务的目标也被认为是切入点,我们真正需要解决的问题可能是音乐、可能是订票,可能是一个什么领域,每个领域它有它的特性,大家每个人都可以集中在自己擅长的领域去做,最后每个人做出来的领域合并在一起以后,整个行业、整个大众老百姓的生活里面他想要的各种领域下面都能完成比较好的理解了。我们在做的时候能形成一种模式和趋势。
牛奎光:马总也说了一个比较有意思的现象,有的机器人聊天是越短越好,有的机器人聊天是越长越好,结合以下具体的应用,我想先请黄总讲一下你在家庭应用场景中,你是这两种情况都存在呢?还是说基本上是聊天聊得越长越好?
黄伽卫:就是两种都存在,语义这方面确实是一个很大的挑战,这种方法其实是分层级,这个很窄的场景里面你能很准确地去给用户一个很直接的反馈,我觉得场景方面,尤其是我们产品的设计,几个场景用的时候你很清楚,控制智能家电、智能计算,这些场景你很清楚,根据不同的场景你在语音方面其解决。
另外一方面,刚刚提到的也会有人忍不住去调侃,他要去聊天,所以我觉得这个性质有点不一样,给他一个很有趣的方法来聚焦,这两个性质是不一样的。
要是你去问我们的话,我会希望用户怎么用呢?我希望是一个在家庭里面使用的产品,我希望它给我们的感觉是放松、很好玩、很有乐趣,比如说我回家的时候,我回到家不会一直跟机器聊天,我回到家也不会跟我太太聊天,想休息一下。其实很多别的服务变得很重要,像垂直的领域,听音乐也好,你讲个故事给我,听新闻,这些更多我们会觉得比较有用、更放松、更好的,能够用到 AI 方面的一些场景。
当然,也会有一些自由的交谈,这方面我们也会一直去加深,因为产品已经上市了,我们会很主动地了解用户怎么用到产品,我们发现用户会问到这种问题,根据我们本身搜集到的一些真实的数据,我们来优化产品,不管是垂直的产品还是只有聊天闲聊。
牛奎光:产品迭代的过程是非常重要的,图灵机器人杨总您这边看到跟用户沟通也是做得挺久的了,你这个地方看到的应用和数据反馈的情况是什么样的?能不能给大家介绍一下?
杨钊:我觉得现在有一个机器人的平台,让我们平台上面有各种产品的接入,刚才两位讲的就是有的产品可能偏向于聊天,纯粹就是找乐子的,另外一种就是实际应用,我要解决实际问题的。当然还有很多产品两者兼有之,它会有一个共通的,在我们的架构里面,其实也跟两家差不多,一个是调侃聊天是一类,另外一块是垂直应用,在我们的使用数据的情况来看,在明确意图的情况下,它的目标比较狭窄,我们通过数据的训练,包括模型迭代是很容易能做到一个非常高的水准的。
因为聊天这块它的意图相对不明显,表达过量,加上如果你没有很好的知识库和计算的话,包括它的 NLG 生成不够有趣的话,都会极大地影响每个用户跟它进行交互的欲望,所以从目前来讲,因为我们有一个开放平台。所以从我们开放平台出来的产品和用户的数据来看的话,总体来讲我们的平台的垂直场景准确率还是非常地高。
从对话系统,聊天这个场景来看的话,它的整个对话的准确度,包括它的上下文关联也都在逐步提升至中。当然这块确实刚才讲到对非明确意图的聊天确实是一个很大的难题,这块确实还得根据不同的场景、不同的产品来做对应的优化。
牛奎光:这个我再稍微请教一下,按理说明确意图的比较容易形成用户的反馈,换句话说你比较容易做到闭环,比较短的迭代的产品。相反的话,因为情感类的事情,他自己也很难表达他自己的情感,给你反馈说你给我的东西好还是不好,相对来说闭环更难一些。但是你刚才讲的好像做服务类的他们会更难一些?
杨钊:可能我刚才表达得不是很清楚,做垂直应用场景肯定是容易做闭环的,我们的需求问题都非常地明确,另外调侃聊天,因为用户的表达多样化,目的更明确,包括他关心的一些内容都会很多样化,这块其实相对来说更难形成闭环。
但是通过不同的算法和模型我们可以对一些调侃、聊天的一些数据进行一些深层的分析和迭代,然后我们能把对话能够衔接起来,这个衔接的效果确实数据的积累和模型的优化是有提升,但是它准确度肯定是比不上垂直应用场景带来的情况。
机器人创业如何应对巨头竞争?
牛奎光:了解了,我想接下来问一个稍微尖锐一点的问题,先从这边的四位嘉宾开始,你们在做应用的时候有没有担心因为数据积累的速度不够快,或者是因为计算立项成本的问题,导致你有担心说以后巨头干了怎么办?我们因为讯飞相对来讲语音干得比较早,至少在语音这个层面上算是一个巨头,我们马总最后说,我们从谢总先开始说,这个事你怎么想?
谢殿侠:这个问题的确也是个好问题,但我觉得几点,第一因为语音交互张嘴说话,它带来的情况是什么呢?它不像任何传统的产品或者应用,你没有菜单,你没有界面、尺寸大小的限制,我们知道大家一说话一张嘴随便讲什么都可以。就意味着过去有很多 APP 的时代过碎了,单点解决一个问题。
但是现在到了开口说话的时候,就容易有我想到哪儿就说到哪儿,前面还有讲闲聊,就是你有问我能够单向回答。但是任务型的我希望能够准确,如果不准确吃不准的我不回答,为什么比如说现在 BAT 还慢,我们就说苹果、谷歌、Facebook,他们能力、资源都很厉害,大家仍然很大程度上把它当做一个玩具,每个人张嘴说话之后的随意性,以为着我们日常生活工作中的需求,假定如果是八千个,或者是一万。
牛奎光:技术还是不成熟。
谢殿侠:还不够成熟,所以这种情况下,对于这种创业的公司来讲,如果你是 CMO,一个细分领域扎得比较深,那好了,我在这个领域里边我挖,我可能让针对这个领域的用户场景,或者说是我们能够提供的服务能够让用户的满意度更高,这种情况下可能巨头看不上的,我们做一些脏活、苦活、累活,我们让用户爽了。
魏清晨:就像前几年有人问这个活如果腾讯干了,BAT 干了你会怎么办?他们如果干这个事就证明这个事有价值,但是具体谁能跑出来,从以往的经历来讲这是一个未知数,这是第一点。
第二点,你刚才说那个问题是数据的积累和算法决定你精度的提升,但是还有一块,我们算法有很大一部分算法是基于专家模型加上深度学习的,而不是单纯进行深度学习的。
还有一点,可能巨头它切的是某一块,比如说有只切语音的,有只切表情的。我们知道如果判断情绪呢,我们主要是分两类数据,第一类数据就是说我们的大脑可以控制的,可以伪装和掩饰的,比如说语音和表情,还有一类是大脑控制不了的,比如说心率和皮电。这是作为一个多模态的形式判断,从渠道数据来源的角度去做综合判断,这是专业性的,我们希望这一点上能走得更远更长一些。
我补充一下刚才提的那个问题,我对于情感和交易这两块还有自己的一些看法,我认为情感它不仅只是闲聊,它同时也是一种服务,甚至它是评价服务品质和质量的很重要的一个因素,比如说送菜机器人,如果只是把某一盘菜端到某一个人面前,这样的服务顾客很难认可、很难买单的。比如说他说出来一种语音不是纯机器很深的应验,它带有某种情感,当他看到这个顾客伤心的时候,或者看到这个顾客开心的时候,它以不同的语音表达出来。
谢殿侠:我补充一下情感结合的问题,比如说听音乐,我听周杰伦的音乐是这样,实际上是我回家了今天比较积累,他给你放一个比较放松的音乐,我今天签了一个大单非常爽,它给你放贝多芬的《第九交响曲》,所以当构建了个人的知识图谱、音乐的图谱之后,你要表达的只是你的一个情绪和诉求。
这种诉求当这些文化类的服务是跟情感密切相关的,所以在这个时候我高兴了,你放一首不好听、不好听。这个有点好听,但是有点好听你可能会是一个积极的情绪,也可能会是一个消极的情绪,当如果知道了之后后边再去调整算法的时候,给你的可能是适合你的音乐。
你说它是一个完全任务型的领域服务呢,还是闲聊型的,或者是一个情感服务呢?这个界限已经模糊了。所以这两块只是说我们在分类的时候这么分,但是对用户来讲实际上是一码事。
魏清晨:用户只是以自己的感受为主,拿了一个音乐举例子,我们现在分析根据情绪提供音乐,3 分钟的音乐我们采集六千个数据点,分析它的音高、旋律,打一个标签,这种标注过的应用我们已经超过 160 万首了。
所以说我们跟讯飞、跟图灵都是那种在合作的机构,跟图灵的合作就是除了基本的情绪的识别以外,针对幼儿会有一些更深的基于大数据的对他情感情绪的分析和建议,这个还没有正式发布,就不多讲了。
包括跟讯飞的合作,有些集成厂商他接入的是讯飞的语义识别的功能,同时又想通过语音,通过语调、语速来判断情绪的功能。可能讯飞的接口占用麦克风以后,其他的 SDK 就没法再占用了,要占用就会产生冲突,这个机器人厂商正好推动和讯飞的合作,一段语音讯飞来分析识别语义我来判断情绪。
牛奎光:今天来的都是上下游关系。我们听听黄总准备把自己的科技竞争力、壁垒护城河建立在什么地方?
黄伽卫:我们不担心大公司都来做这个事情,我们看到这是一个大趋势,我们做的创新模式是大模式,这个是很早期,现在的问题是要教育市场,从这个角度很多客户来做确实是好事情,到头来确实需要竞争,我们希望能够在市场里面能够留一席之地。
一个家庭的领域里边听的不一定是技术,听的是用户的体验和产品,这个就不一样了。
牛奎光:一旦不拼技术了,大公司也没有什么优点。
黄伽卫:我们很糟的时候在考虑,因为我们是一个以产品为导向的公司,在家的产品我们要不要设置那么多好的选择?我们最终做了一个比较风险高的决定,我们还是相信不同的场景它的需求是不一样的,性质不一样,那个时候很早我们做了一个决定,从语音识别到语义,我们自己来,这里面其实有一个原因,因为我们做的一个产品比较全,我们相信这个产品到家庭环境里面,我们可能需要比如说它的算法、硬件,包含了灯光的效果要结合在一起,要这样做的话,只有我们自己来做。
比如说我举一个简单的例子,我们发现用这种声控产品一定要唤起他的注意,因为唤醒是很重要的,他要很快很准,现在比如说大公司都是唤醒音节越多越好,我们发现在用户使用的过程当中,发现唤醒的感觉很坏,特别是对中国人,声音有点怪,我们把这个压缩成两个音节。
因为我们自己做这个技术,我们自己投入,所以我们把它缩到两个音节的原因我们认为这将会更加智能,我们产品交互的时候,说请就可以了,一个小的案例背后技术投入是蛮高的。
牛奎光:黄总把产品用户体验的能力作为自己一个很高的壁垒,我们期望黄总能卖到 300 万台。杨总对这事怎么看?
杨钊:我认为现在市场还在一个教育期,人机交互,包括语音交互这一块,整个生活场景,包括解决用户的需求,范围还是非常广的。现在我觉得在一个广袤的想象空间里边,其实很难说直接是竞争,更多是一个合作,谁能率先以这种语音交互、人机交互方式能解决实际用户的痛点需求,能让市场、让用户能够接受,会为自己买单,然后让整个产业能够快速地成熟起来,我觉得这个东西其实更有价值。
另外一点,假若这个事情逐渐地在所有的合作商,不管是做语义的、做情感的、做产品的、包括做 AI 技术的,做数据服务的,做内容的等等等等,在整个产品里大家一起把这个市场做得足够大、足够成熟的时候,可能这个时候谈竞争可能是更加合适。
当然我是相信不管是大公司也好、小公司也好,跟所有产业相似的一点,如果一个公司在自己关心的一块、感兴趣的一块有很长时间的积累,如果很担心大公司进来的话,这个心态是有问题的,如果持这种心态,很多事情都不用做了。
杨钊:我感觉大家都想合作,每个公司都有自己最擅长的一部分,但是要真正把这个行业推起来,推出很多经典的产品,能够教育市场、教育用户的话,我觉得合作更关键。
牛奎光:我们听完了创业公司的想法之后,听听巨额是怎么想的?讯飞在语音识别上还是第一把交椅。
马汉君:我这个观点跟黄总有一点相似,数据的确从技术角度来说是很关键的一个东西,我们想在行业里来说,数据我们可能有一个比它还要关键的问题,就是说你的定位。在讯飞里我们把它叫做命题,首先你想做个什么东西,你想解决什么问题去做这个事情。
这个跟杨总讲的一样,在当前比较早期的时候,大家甚至做得一模一样,比如说我们就是为家庭做贡献,一模一样的东西,我们两边的想法和定位对它未来的发展都是一模一样的。在这个时间点的时候,取决于你的成败,很多时候是取决于你对你想做的东西是一个什么样的定位。
如果说最后真的走到一个阶段大家定位是一模一样,再拼的时候,在座的在那个时候都已经是大公司了,更多拼的是合作了。
牛奎光:所以马总心态很开放,从一个垂直领域扎进去,定位定准了,等这个事情被大家所接受的时候,都变成是大公司了,这也是个好事,应该说会话经济,或者叫智能机器人,这个事情今年刚刚开始,我觉得在这样的一个背景之下,在人工智能取得一个算是突破性的发展的情况下,还是会有很多的机会,也是你希望能有更多稀奇的、好玩的、实用的、高效的机器人出来,能够简化和丰富我们的生活