拟脑吴义坚 : 机器人这个行业还很初级,AlphaGo还只是弱人工智能
【观点导读】机器人是一个框,什么都能往里装。 但是我觉得真正意义上的机器人首先是能像人一样具备智能,或者能完成一些原来必须要人才能完成的一些任务。有些服务机器人至少推出了有三年以上,但是为什么没有火起来? 最大的问题就是它们没有真正意义上解决目标用户核心的需求,没有像 智能手机 一样真正满足了目标人群。
整个机器人行业的发展目前还处于一个很初级的阶段,机器人的功能和定位没有一个标准,业内人士和用户也有不同的期望值。我觉得短期之内的突破点一个是细分市场痛点的需求,一个是在细分市场上做非常深度的定制优化。
谷歌的AlphaGo,从人工智能角度来讲还属于弱人工智能。 AlphaGo离我们真正的人工智能或者智能学习还是很遥远的,它只是一个非常初级的阶段。
注:以下来自上海元趣创始人吴义坚的分享。
( via 61gequ.com )
| 机器人是一个筐,什么东西都可以往里装。
1、人工智能和机器人行业的大背景
我先讲一下大环境,人工智能和机器人相关的行业报告都说,从这两年开始,(这个行业)在接下来的五到十年都会高速增长甚至市场爆发。
关于机器人的新闻很多,比如上个月谷歌发布了叫逆天的行走机器人。而关于机器人也有一些偏负面的新闻,比如你只要在网上搜索一下机器人杀人,排在前面的是一个德国机器人杀人事件;人工智能方面最近最火的就是AlphaGo和李世石的围棋人机大战,在很多人看来这一天总会来临,但是没想到来临得这么快。
人工智能也有负面新闻,霍金、马斯克等人开始担心人工智能将来有一天会威胁人类。其实我作为业内人士看这些机器人、人工智能可能威胁人类的新闻时是有两个心态:
正面的就是, 通过这些新闻吸引眼球有助于大家关注这个行业 。 另一方面也觉得这个炒作有点过了,其实从行业的角度来讲人工智能或者机器人威胁人类这类听起来危言耸听的东西,理论上应该是存在的,只是我们只能是无限地逼近它,其实是很难做到那一点的,至少在我的有生之年。
回到今天的主题机器人与人工智能。
2、机器人包含哪些?市场有多大?
机器人是一个筐,什么东西都可以往里装。
只要是一个机器,加了一点点跟智能相关的东西之后,甚至说只要加上wifi模块,它就可以叫智能机器人了。 比方说有一种煮蛋机器人,其实本质就是一个电饭煲。其实这地方有一些东西所谓的概念和真正意义上的机器人还是不一样的。
第二个就是人工智能,人工智能字面意思看起来很简单,但是到底包含哪些东西?这里面还是有很多认不是很清楚的,我后面也会稍微讲一下,包括我们现在的技术水平。
机器人,在百度百科上的严格的定义是 自动执行工作的机械装置,也是可以受人类指挥,或者以人工智能的方式运行,任务是协助和取代人类工作 。
所以从这个定义上讲,某些自动执行工作的确实也可以叫机器人,虽然它和我们期待的机器人不一样,但从这个定义上讲,或者从比较早期的宽泛定义上讲确实可以。尽管如此, 我觉得真正意义上的机器人首先是能像人一样具备智能,或者能完成一些原来必须要人才能完成的一些任务。
机器人具体分为这几大类:工业机器人,专业机器人,服务机器人。
工业机器人,理论上讲是指所有在产线上可以自动化执行任务,或者加一些感应装置,可以做一些随机应变的机器,这些宽泛地讲都是工业机器人,我本人在这方面不擅长,今天就不讲了。
第二大类是专业机器人,包括军用、医疗、潜水等机器人。
第三大块,也是我今天主要讲的是服务机器人,包含商用和家庭用两种。
3、服务机器人有哪些类别?
另外,我认为的机器人一定涉及到人机交互,尤其是这种服务机器人类。人的交互方式很简单了,语音,触摸,还有体感,所以涉及到听觉、视觉、触摸、按键,包括遥控,都属于人机交互的模式。
-
第一大类就是商业用的服务机器人
看这张图片,是银行客服的机器人,第二个是餐厅的机器人,切菜,做刀削面的机器人。
(银行客服机器人 via sinaimg.cn )
(刀削面机器人 via tintucimg.vnanet.vn )
这些机器人的特点,一是外形拟人,在行业里提供一些特定功能或者信息服务。 这地方其实有两大类功能,一是替代人工,比如刀削面机器人;还有一个重要的功能是吸引眼球,这是一个商用机器人或者展览用机器人最大的一个功能点,因为吸引眼球就能导流,这一点从目前的商用服务机器人整个来说还是比较初级的阶段。
-
另外就是家用服务机器人
这里面我想先提一下扫地机和 无人机 ,其实以我个人的定义我不太倾向于把它们叫做机器人,它们更多是机器智能化,也就是机器加功能再加智能。 我今天要讲的机器人定位是拟人的,在机器人的基础上加交互体验,再体现它的功能。
家用服务机器人和商用服务机器人不一样的呢?它更多属于消费类电子产品,不管是扫地机也好,无人机也好,一定要在某一方面满足终端消费者需求,甚至是个性化的需求。它不像B端,没有实用功能或者实用功能不是那么强的时候还可以通过吸引眼球实现导流功能。
我先给大家看一下国际上的一些比较知名的家庭机器人。
Pepper目前的定位是商用信息服务机器人,阿里巴巴也投资了,我还是把它放在家庭机器人范畴,因为它的未来发展目标还是定位在家庭,它的交互性能做得还可以,形态、品质在整个家庭机器人里面也是比较好的,尤其是已经量产了,家庭机器人里面很多比如说阿西莫机器人还只是概念产品。
Pepper
另外一个是叫Nao的机器人,这个机器人四五年前就有了,是法国的一家公司做的,目前主要的应用场景是在家庭里面比如说小孩子的教育。
Nao
前面这两个机器人长远的目标是想做成家庭机器人,但是它们的实用化功能还没有达到终端消费品的期望值,目前更多的应用场景是在商用场所。
第三个是前年年底左右在国际上做 众筹 的Jibo机器人,它一开始定位就是家用的,可以拍照,辅助人做一些事情(比如回复一些信息,跟小孩子互动等)。但是大家都知道众筹的很多产品都会跳票,Jibo到目前为止还没有发送,国内应该在年内上市。
Jibo
还有一个机器人是Buddy,法国的一家公司做的,它更多的侧重于家庭的监控和安防,你可以远程控制这个机器人,也可以进行远程沟通,目前应该也还没有正式量产。
Buddy
另外说一下Amazon Echo,它其实不是机器人而是更像siri,你可以跟它语音互动,听新闻之类,虽然外形跟机器人不一样,但它提供了人机互动和助手服务等家庭服务机器人的功能。
Amazon Echo
-
国内现在家庭机器人很多,宽泛地讲有上千种
小鱼在家机器人主打的是远程陪伴,就是你可以像微信或者苹果的facetime一样跟家人进行远程双向视频互动,它里面也有类似Siri一样的 语音助手 功能。
公子小白的机器人主打是陪伴家人,或者年轻情侣的机器人,它分男孩版和女孩版,可以语音交互,聊天调侃,讲讲笑话什么的。
这里面我稍微提一下, 现在国内绝大部分, 应该是95%以上的机器人里面用的人工智能核心技术都是集成类似科大讯飞的第三方技术 。大家也在问,我们机器人用的是哪一家的技术?我这里说明一下,我们的语音交互技术也是自主研发的,在这点上Rokid机器人和我们是类似的,它的语音技术也是自己研发的,Rokid的外形其实是一个非常酷炫的音响,你可以跟它语音互动,它会有一些比较拟人的反应。
为什么我要提自己研发语音技术这一点?因为人工智能中语音交互这个技术大家见到最多的就是Siri, Siri的体验离期望值的差距还是非常大的,这也是为什么需要持续对这些技术进行性能迭代优化。而第三方提供的技术是通用的,通用的技术很难达到客户的实用化需求,更不要说个性化需求。 叮咚音响是科大讯飞推出的一个产品,讯飞做人工智能和语音交互是非常领先的,他们以前更多的是提供技术给第三方,现在也推出一个音响类的语音交互及个人助手类产品。
类似这样的机器人还有很多:做一个机器人的外形,外加集成一些语音交互以及人脸,物体识别功能。
-
儿童机器人主要是两大类产品:玩具和学习机
玩具类机器人有上春晚的这个跳舞机器人,你可以在很多展会上看到,小孩子可以跟它玩,就跟遥控车一样。但是所有的玩具会涉及到一个问题,小孩子基本上都是一阵子的新鲜感,家长一般不太愿意花非常多的钱,因此单件的玩具价格很难上去。学习机是不一样的,包括步步高点读机、小天才学习机,中国的家长还是愿意在小孩子学习、早教上面花钱的,大家都知道各种各样的早教班花费是非常多的。
小优机器人是学习类机器人里面比较有代表性的,已经迭代了有三代了,外形一直没有变过:机器人的外形,胸前是一个PAD触摸平板,相当于既是一个机器人也是一个学习机。另外现在还有很多幼教机器人,就是把手机或者平板套一个壳,然后装一个迅飞或者其他家的语音助手就可以作为一个机器人去卖了,这类机器人价格很便宜基本上就是山寨机的做法。
4、服务机器人之前怎么就火不起来?
这上面这些机器人,不管是小优机器人、阿尔法机器人,至少推出了有三年以上,但是到目前来说还没有火起来, 最大的问题就是它们没有真正意义上解决一个目标用户核心的需求,没有像我们的智能手机一样真正满足了目标人群的核心需求 。
我们需要思考这些家庭机器人到底解决了什么问题?到底是一个痛点问题还是一个痒点,到底有没有实用价值还是只是一个噱头?家庭机器人也有要特别考虑的问题,到底是服务这个家庭某一个特定人群,还是所有成员,就像家用冰箱一样。
家庭机器人大多强调智能家居入口概念,但是现在基本上除了小孩子每个人都有智能手机,现在很多 智能硬件 产品都要结合手机,家庭机器人PK智能手机到底有什么突出优势?扫地机器人目前在家庭机器人里已经算做得不错很普及了,满足了用户的刚需和痛点,但还是有扫不干净的问题,就这么一个简单的事情都没有完美解决,更别说其他功能的家庭机器人。
比如说主打陪伴功能的,真的能做到像科幻电影里面的那种效果是很难,因为只是做一个语音互动都难称满意,更别说人机交互,大家都知道Siri那个声音听起来是怎么样的,包括微软的小冰,看看文字还可以,一听声音效果立马大打折扣。客户对主打陪伴产品的人机交互情感效果期望值是很高的,这点目前技术还差得很远。
儿童机器人是有刚需的,看你是不是真的能很好地满足用户的刚需。
做成多功能型的,还是主打一个功能?还有最大的问题就是小孩子的新鲜感与长期使用的黏性问题,小孩子到底愿意使用它多长时间?最后一点就是这个儿童机要同时做到小孩子喜欢和家长放心,屏幕可能伤眼睛,游戏可能造成沉迷,就像平板电脑小孩子都喜欢玩但是家长不放心,这个市场是家长掏钱给小孩子使用,因此两个方面都要满足到。
关于屏幕伤眼睛这个问题,我自己做这个产品的时候也会涉及到这个问题,稍微澄清一下,理论上讲所有的屏幕都会伤眼睛,不管是大还是小,甚至你长时间看书也会伤眼睛。对于保护眼睛,其实主要是两点,一是距离多远,二是看多长时间,这才是最关键的。
整个机器人行业的发展目前还是很初级的一个阶段,机器人的功能和定位没有一个标准,业内人士和用户也有不同的期望值。 我觉得短期之内的突破点一个是细分市场痛点的需求。一个是在细分市场上做非常深度的定制优化。当然长期趋势来看机器人行业还是非常清晰的,就像人手一个手机一样,未来肯定是每个人都会有机器人,但是这个机器人是满足单一的需求还是满足多样化的需求,满足特定一个人的需求还是满足一个家庭的需求,这个地方目前来说还不是特别的清晰。
| 如何定义人工智能?
我讲一下第二大块的人工智能部分。
人工智能的基本定义就是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术的应用。基本上就是模拟人的思考问题和反应方式。
我把人工智能分成三个阶段: 弱人工智能,强人工智能和超人工智能。
比如谷歌的AlphaGo,从人工智能角度来讲属于 弱人工智能 ,它只是擅长某一个方面,某一个特定领域的某一小点,利用机器擅长的运算能力做到了极致甚至超过了人类,但是在某一个领域真正的理解方面,它的人工智能还是属于非常弱的。
强人工智能 是什么呢?它不是单一功能,而是能做很多像人一样的智能水平的事情,就是人类能干的脑力活它应该大部分能干,甚至跟人相当于同一个水平。
最后是 超人工智能 ,人工智能跨过强人工智能往超人工智能转化,可能就是一瞬间的事情,从理论上讲确实是有这种可能性的。因为人类进化就是一个缓慢的过程,而机器的特点是运算比人强,存储比人强,进化速度比人强。
AlphaGO可以在几天之内运行几千万盘棋谱,但人也有擅长的地方,比如概念认知是人类天生的,这个东西目前为止现在还没有任何的基础理论能让机器自己认知一个概念,更别说一些自动推理、规划、决策,机器只能在人定义的范围之内做规划和决策。
认知上面比如说 语音识别 ,现在机器做得还不错,通用的语言理解基本上现在都做不到。现在真正的人工智能涉及的主要领域就是这些地方:类人智能感知、听觉、视觉、嗅觉这些基本上都能做到了,当然机器擅长和不擅长的地方跟人不一样。比如说触觉,现在机器还不能像人一样感知那么细腻,但是在听觉和视觉方面,机器在某些方面甚至比人还要强,比如说在基础视觉方面机器在黑暗的环境下看的比人要清楚,但是涉及到一些抽象视觉感知现在机器还是接近于0。另外在信息反馈方面机器在性格、感情表达方面还做不到。
1、语音技术的发展
我本人做语音交互做了十几年,接下来我会侧重讲这个方面,涉及一些基础的东西包括深入学习,也会顺带讲一下计算机视觉。
语音技术研究从五十年代就开始了,一直到九十年代都是在做很多基础的研发,深度学习大概在距今10年左右得到了非常大的突破。整个语音技术的发展是这样的:基础研究从简单的任务开始,比如一开始是识别十个数字,到后面的孤立词,然后到连续语流,从最早的特定说话人到现在的所有的说话人,从早期的安静环境、受限环境到现在的复杂环境,这是整个语音技术发展的历史。现在很多场景下大家都能够看到一些语音识别的成熟应用了。
所有的语音识别和模式识别都是一样的,首先要把一个语音信号做特征提取,然后再做一个模型匹配。我们这里有两个模型,一个是声学模型,还有一个语言模型,声学模型就是人的声音是怎么发出来,语言模型有点像拼音输入法,把听出来的声音对应到某一个字。
2、深度学习如何应用到语音中?
深度网络学习算法DNN是怎么应用到语音的?其实用的就是在声学模型里面的。 在过去的十年之内,任何一个语音的单项技术能做到10%准确率的提升,都是很了不得的,但是DNN能做到30%以上提升,是非常大的一个突破。 DNN是替代了以前的HMM或者GMM,大家稍微有点基础的就知道概率分布, GMM就是高斯分布,就是你最有可能出现在什么地方可以算一个概率,这个是传统的概率论。 DNN不是这样的,其实 神经网络 在七十年代就已经出现了,但是它为什么一直没有很大规模使用呢?就是因为以前传统的神经网络虽然理论都有很多层,但是实际上应用只有一层,一个原因是那时候没有很好的训练算法,第二个是运算量巨大,当时的计算机根本没有办法算。大家都知道AlphaGO的机器配了很多的GPU,这个也是近这几年GPU运算能力的扩张才使得这个算法得以实现。
传统单层的神经网络就很简单,左边这个是输入的信号,比如语音信号提取的数据输入到这个里面去,所有的连接都是一些参数,需要提前训练好,然后输入就是说这个参数对应到这个模型是什么。现在DNN发展到十层甚至到十几层,而且每一层有一千个甚至几千个节点,这里面参数有几百万甚至上千万,传统的训练算法根本做不了这个事情。
我们现在用的声学模型基本上有四五层以上,每一层都有1024×1024个节点,输出的音有几千个,甚至上万个。这么多的参数怎么在系统中做好,我通过这个图讲一下基本的原理:你看我输了这个语音数,输入这些参数之后它自动往后扩张,所有的参数乘以这个系数,然后在这里得出一个得分,然后这地方就算出一系列的值来,这一系列的值再往后扩张,一直到最后这个就是我们的声音的得分。比如这个节点是a,你这一组节点进去得到a的概率是多少。我们再说一下 人脸识别 ,人脸图像也是一组参数输入进来,通过这个网络往后走,在一千个或者一万个人脸库中,每个人脸匹配的概率值中找一个最大的。DNN训练就是你已经有大量的数据,你已经知道输入是什么,输出是什么,通过这里面所有的样本去调这几百万个参数。具体算法就不讲了,是非常非常复杂、运算量非常大的,这就是为什么要靠GPU来计算,如果要靠CPU,上万台服务器可能都不够。
3、谷歌的AlphaGO强在哪里?
下面我具体讲一下谷歌的AlphaGO,比赛我相信大家都看了,相关的论文和报道在网上都有了。我再简单地讲一下它的原理,里面涉及到两块,左边这一块就是传统的机器学习,已经有大量高手对决棋谱样本在那儿了,就像我们大量的语音和图像数据。还有一个部分就是它学成模型后自己跟自己对弈,然后可以调一组参数,对弈完之后如果发现这个更好,就去加强,往这个方向去调整。就像你每天自己练,可以发现某一招更好。机器的学习速度是很快的,这个就是它比人类强的地方,因为人类高手棋谱几万或者几十万就不得了,但是他自己跟自己对弈可能有上亿盘那么多。
大家知道为什么围棋难下呢?中国象棋是比较容易用人工智能模拟的,因为它的目标比较清晰吃掉帅就算赢了,而且象棋落子的可能性也少很多。但是在围棋上面是不行的,围棋的变化可能比地球上所有沙子的数目加起来还多。其实业界拿围棋做一个实验场地优化人工智能算法已经有五到十年了,原理比较简单,就是局部分析和全局分析。局部分析就是下棋的时候可以算一个局部最优,因为局部的空间比较小。另一方面下围棋时全局观非常重要,所以谷歌用DNN做了另外一个事情,可以评估出当前做法在全局上的获胜概率是多少。通过这两种方式,就兼顾了局部最优和全局最优。
围棋每一个点可能对应的是两百种可能,两百种以内选一种下法的意思是在输入端相当于下法,输出点是每一种下法对应来做一个最优的选择。在 这个系统里面,每一个可能的落子点都算过得分。
-
AlphaGo的人工智能和别家有什么样的区别?
我们的语音数据一般要几千个小时,甚至要上万个小时才能训练出一个性能还不错的神经网络。围棋方面我觉得高手的棋局没有那么多,AlphaGo应该更多的是通过后面自学习的方式提高的。当然前提是先通过已有棋局训练出一个不错的系统。
-
AlphaGo的训练具体是指什么?
训练的是所有神经网络的参数。
首先调参数并不是人在调,人调整的只是策略,比如定义多少层网络,用什么样的训练策略。但是具体神经网络里面的参数,现在没有人能解释几百万上千万个参数具体有什么意义,它有点像一个黑盒子。在传统的统计模型里面,概率分布是很好解释的,比如说老人跟小孩子的声音为什么不一样,因为它频谱这边有一个共振峰,在那个位置有一个高低分布,都有一个物理解释。
DNN里面的参数是没办法解释的,但是它确实很强大,这就像我们无法解释人脑一样的。
宏博说他一开始低估了AlphaGo,觉得它肯定下不过李世石,因为研发团队里并没有顶级围棋高手给它做策略指导,虽然可以借鉴大量的历史棋局,但是单纯地模仿高手下法或许可以达到职业初段选手的水平,真正面对顶尖职业高手时必然会出现应变不足的情况,因为围棋的变化实在是天量的,运算能力再强也无法穷尽,对目前依靠机器深度自我学习是否能达到顶尖职业棋手水平还抱怀疑态度。
实际从第一局棋看来,AlphaGo有一些下法我们国内的一些顶尖的高手都没有想到,赛后谷歌的工程师也说到 AlphaGo现在已经不再依赖棋谱,它已经把围棋游戏规则和基本套路完全吃透,实现了以获胜为目标严格按照策略和价值模型自我学习自我优化 ,即人工智能的增强学习概念,这个是AlphaGo真正可怕的地方,后面随着模型不断优化进步人类选手将越来越难以战胜它了。
-
谷歌强就强在使机器可以做基础的学习。
AlphaGo可以自我对弈,然后找到更好的策略,而且它的进化速度远比我们人快。但是这里我要稍微说明一下,深度学习更多的是一种抽象的概念,就是不要学表面的,而是学深层的。深度神经网络也是深度学习的一种体现,也是目前大家都在用的。其实反过来说,虽然AlphaGo在围棋上面很可怕,但其实它离真正人类的学习还是差很远的,或者说它还是在做模式识别或者模式训练,虽然它有一些自我学习的概念,但只是一个很小的单一目标任务上的训练,或者说参数的优化。这个还不是真正意义上说的概念认知,甚至说AlphaGo都不知道下棋这个概念,对它而言下棋只是一个任务、一个目标。 我觉得AlphaGo离我们真正的人工智能或者智能学习还是很遥远的,它只是一个非常初级的阶段。
回到语音这一块,大家可以看到整个语音的发展历史是很慢的,前后差不多有30年都是徘徊在识别率突破不了90%的水平,而人类在各种环境的识别率达到98%或99%以上。目前的语音识别差不多在安静环境下面识别率可以接近95%,其实更多的是在各种环境下面。在复杂的环境下面,现在的语音识别准确率还不高,不管是噪声环境,或者有口音,甚至语速过快的情况,在更复杂的环境更不要说了。
另外说一下语音合成,它是把输入文字变成声音,科大讯飞最早就是做语音合成出来的。语音合成大家感觉在某种场合下可以用,比如播天气预报或者播语音导航,这些都是合成技术,听着没有什么问题。再往后,比如朗读小说等绝大部分也还可以接受。但是到对话聊天,比如陪伴机器人,声音传递的信息除了文字以外还有情感、情绪、个性,目前来看语音合成还很难满足需要。
语义分析就更难了,只是从技术层面上讲,分析一些特定领域的东西是可以的,比如打电话给某某,不管原来传统的基于规则的,还是基于统计的,基本上都可以做得很好。但是开放式的语义理解就会非常困难,尤其是一些新的概念。目前大家看到的语义分析也好,包括AlphaGo的理解,机器还是属于非常初级的阶段,都是人预先设定告诉它这是什么东西,而不是它自身能自我从这里面能学习到的,所以更多的是训练而不是叫学习。
目前的语义理解技术分为两大块,一个是在通用领域,它基于一个海量知识库去匹配的回答出来。比如说查今天的天气,这种任务他是理解的,但是如果真的聊天调侃,表面上好像理解了,但是其实从技术层面上它并不存在理解,这只是一个知识库的匹配,或者统计的分类。在特定领域这种语音技术虽然说还不够好,但是其实只要做到足够多的深度定制,基本上是可以达到实用的。比如IBM的Watson,它对一般的医疗问题甚至可以给出比普通医生还要好的建议。
-
再简单介绍一下计算机视觉。
它从人工智能或者机器学习的角度上和语音识别原理是一样的,因为语音信号是一个一维的模型,图像是一个二维的,而视频相当于一个二维图像的时间序列。刚才已经给大家看过了语音的识别过程,深度学习的框架是一样的,唯独不同的是特征提取,你要把特定领域的东西找到一定的信号输入进去。
现在计算机视觉在人脸识别,包括一些物体的检测都可以号称在国际上有一个专门的测试上面可以做到99%了,但是实验室的测试和实际环境是不一样的,化妆、光线、角度等因素对人类识别能力影响不大,但是对机器而言就很难了,因为它学习的这套机制跟人脑的机制理解是完全不一样的。
人工智能的产业格局跟机器人不一样,因为机器人这个行业里面还没有什么巨头,市场还没有起来。人工智能基本上都是国际、国内的巨头在做——
谷歌、facebook、苹果、微软、Amazon,可以看到全球互联网、终端类大公司基本上都在做。
国内最强的应该是百度,也是以技术擅长的一家公司,百度拥有语音图像、深度学习实验室,在AI上面的投入水平确实在国际上是排得上的。阿里、腾讯相对弱一些。阿里做了一些语音技术和人工智能的布局,也投资了Pepper。腾讯这方面更多的是应用,他们目前的技术储备还是不够的。科大讯飞本身是做人工智能出身,包括传统的语音识别和合成,还有现在的超脑计划,讯飞也联合了很多国内外的研发机构,我认为现在国内在整个人工智能行业布局上除了百度、科大讯飞是排在前面的,这包括技术水平还有整个未来的发展前景。
人工智能产业还可以大致分为三块:
首先是通用平台,像谷歌、BAT,除了提供技术还提供产品和服务。
其次是技术平台,科大讯飞是国内最全面的,facc++也是比较热的技术平台。
第三块细分产品就比较多了,包括我前面提到的拟脑机器人,还有Jibo等。
人工智能的技术还是处在一个相对比较早期的阶段,大规模的应用或者达到或者接近用户的期望值还有很长的路要走,所以在短期之内细分产品也是有蛮大的市场的。
编者注:以下是活动现场的交流问答,为不影响阅读,雷锋网节选其中几个精彩问题与读者分享——
(按:高宏博系华泰证券计算机行业首席)
1、围棋的下法里面是否已经开始体现出个性?
吴义坚 : 那并不是个性,只是我们觉得它有个性。比如说新的下法,是因为人类没有那样尝试过。或者说所有的高手一开始学的时候,他认为那种下法是不可能赢的。而机器会在跟自己博弈,它后来发现这样也能赢,这不叫个性,它就是在预设目标和规律下通过增强学习发现了一些新的可行路径。因为人类也一样,围棋早期的下法也是不一样的,但是有一些人通过实践和总结演变新的布局和招法甚至围棋理论,只是机器演变的速度比人类快,这个是它强的地方。
其实个人觉得人类后天学习的一些东西,而且是能单一化的东西真的会被机器取代,机器慢慢都能做到。但是人所谓的天生就会的一些能力,就像人只要看过一次猫后面就可以自己定义并识别猫,这种天生的能力人类自己也搞不清楚原理和逻辑,就没办法告诉机器怎么做。现在机器就是人要告诉它怎么做之后,它会做得比人类更好。
高宏博: 其实围棋还是一个有单一目标固定规则的任务。 工网络算法分很多层,其实它也是模拟人脑的神经源之间的相互原理,我们现在只是简单的,其实他的基础也是数学,这块原来我跟讯飞的龚总提过这个问题,其实他有两种算法:一个是计算机算法模拟,这个到最后一些简单的可以处理,但是到最后高级的一些情感化模拟是不是能完全做到,像吴总这种科学家级别的也还在探索;另外一个从完全的生物学的角度去研究,现在还完全摸不到什么门道,现在一些生物公司,也是在碰,如果正好碰到一个疗效就可以开发这个药了。它还不如计算机有用,计算机至少还有一定的逻辑,而生物完全就是在碰了。但是能不能靠模拟能达到生物学的效果,这个确实还需再探索。
2、基于语音,基于视频和基于图象的这三种不同的深度识别,哪一种技术门槛会高一点?
吴义坚: 通用的技术大家其实是差不多的,这里面有几个东西不一样:
一个就是特征提取,当然也是有技巧的,就是基于哪些特征更有效的描述你的目标;
而深度学习里面,不一样的地方就是语音现在可能我们做到五层八层足够了,而可能对于图象,它可能要做到十层二十层,甚至几十层,还是不一样的。 这不是哪一个门槛高的问题,是大家的侧重点不一样;
语音可能要解决的问题跟其他也不一样,图象有它的难点,比如它是孤立的,但是它对于图象的理解,它更多的像是一个固定序列,并没有真正理解,并不涉及到语言或者概念理解,它只是检测里面的某一个东西。而这个语音识别加理解,其实更多的是要理解里面的概念。视频理解,现在的视频理解,现在的视频理解更多的是基于图象的技术,检测好这些东西再把它做一个序列化之后然后抽取一些关键之后就叫理解。视频理解应该建立在图象的理解基础之上,视频理解并没有单独的一个,更多的是在图象基础之上做的。
3、是否做语音的深度学习技术门槛更高一点?
吴义坚: 不是的,语音现在它的难度其实要比图象低,但是现在图象的任务要比语音简单。就像我语音识别只做十个数字的汉语识别,早就做到很高了。你看现在的人脸识别,并不是你做图象识别的时候,你要识别你看到的所有的东西,现在就是这样的,如果你要识别所有的东西肯定是图象识别难,但是你如果只做人脸识别,这个比语音识别要容易,所以它可以做到99%,甚至更高。因为大家的任务难度不一样的。
高宏博: 前提是你这个脸要清晰。如果这个人只是类似于一个身份证照片,就比较容易一点。其实现在光线暗一点也不怕,因为他们现在也有相关的技术,对机器来说你光线暗没有关系,只要相对正面一点,他基本上能保证99%的,光从身份证的角度来讲,你几个相结合的话,基本上达到100%了。
我 跟讯飞的江总探讨了一下,他其实也是这个观点:不管图象也好,语音识别也好,其实区别不大, DNN算法都是拆成一系列的数据,然后在里面过滤一遍,然后得出一个结果。而且它相当于把非常复杂的信息拆算然后最后得到一个结论。但是反过来如果只给一个有限的信息,比如像看到一个人或者看到景色,就能写出一首诗出来,这个机器是很难做的,这个其实就是情感认知的东西,确实现在也找不到一个好的算法。
4、比如像语音识别,不同的厂商之间,体现出差别优势和区分呢?是否还有算法的精度?
吴义坚 : 核心技术,包括谷歌,包括我们做的,核心技术大家在一个量级上,差别并不大,但是也要落实到具体的产品应用,每一个应用的场景都不一样的,会带来不一样的难度。因为要做的事情都要受限定条件的信息或者目标。数据是一个重要的基础,没有数据是很难做好的。
算法一定要有一定的水平,但是现在的深度学习框架的门槛没有那么高(当然也不是随便一个人就能用),现在一些大一点的厂商应该都有这个能力把这个东西做了。主要还是在样本和行业的应用上面。
高宏博: 网力就是很有优势,虽然它做这块还不是很早,但是它的逻辑就是很强,而且公安都是很强势,需要的必须要提供。所以网力虽然不是从人工智能的角度很传统的一个厂商,但是对他还是很看好。
5、现在很多厂商用GPU做深度学习嘛,但是很多厂家用FPGA做,你怎么看这两个呢?
吴义坚: 我觉得GPU是现在用的比较成熟的,FPGA也有一定的应用,很难说哪一个更好,因为FPGA还在一个初级阶段。GPU目前基本上都有,像我们内部做的运算全部用GPU,我相信百度肯定也全部是GPU,但是GPU已经不叫通用了。针对DNN,因为FPGA可以针对深对的神经网络的定制,他肯定是有潜力的。
6、从做企业的角度看,中国企业比较有优势的会在什么产品? 选怎么样的企业可能更有潜力?
吴义坚: 比如说讯飞他在语音评测上面,他在考试上面就是做得比较好,因为他在这方面做了很多的人力去做嘛,确实围棋上面不行。甭管你通用平台还是技术平台,如果大家做得不一样,其实各有优劣势的。
所以我觉得要做投资,谷歌百度这种本来人工智能只是他的一小块的未来的发展方向,我不好评估。但是对这种技术平台,肯定是未来的一个趋势。但是技术平台不会有那么多的家的,最后肯定是一家两家出来,肯定不会超过三家。但是细分行业里面会有很多家,这就要看你细分行业里面,我后面没有讲,就是我对这个机器人细分行业,现在做机器人有几百家了,但是要看细分行业里面你的核心竞争力,因为目前的核心技术这一块还不足以满足用户或者达到用户的期望值。
我们现在做这个小孩的,目前只是离用户的期望接近但还没有达到。通用平台会更远,你没有这个技术的先进,一个真正的产品要市场起来,你的产品不仅要满足而且要逐步超出用户的期望。我觉得这类东西细分行业里面他有能力去优化他的产品,即便短期不行,长期他是有能力优化他的产品,在未来三、五年类能做到甚至超出用户需求的。而不是短期地看他的销量多少,因为目前整个市场都还是很小的,无论是整个人工智能或者机器人市场。
7、像讯飞还有百度,是不是一个人工智能SDK,是一个凌驾在各种操作系统上面的SDK?
吴义坚: 当然其实一样的,它还有一个重要的东西,谁占有最大的市场和谁领跑,这个也是非常重要的,因为所有的东西都涉及到一个切换,因为目前还是一个比较初级的阶段,现在讯飞也好,还有百度也好,其实还有很多家提供这个技术平台,科大讯飞目前来说还是非常大的,但是目前也不好说,这个应该是他们比较重要的,但是是不是唯一的,这个很难说。 他们不仅做SDK,也会做一些上层的。
高宏博: 我理解讯飞是这样的,因为DNN出来之后,门槛在下降,所以对讯飞来说不得不去做。讯飞通过这个,相当于无论从技术上包括从数据上把大家都绑定了,最后可能也就是百度做的。
之前大家站队嘛,可能有两三个大平台来站队。我觉得百度的优势更大,因为它有一个搜索,一个互联网平台,它是人工智能最好的。因为我们最早去硅谷,谷歌的工程师说过,其实你都不需要看到一个实体的产品,对我们来说只要搜索的准确率提高1%,我们就是几十亿美金收入。但是对讯飞来说,他现在主要搞的是教育。这次可能做完教育,我估计他后面两三年之后教育成熟了可能会找大的行业应用,我猜想可能是医疗。但是像搜索引擎这种,百度已经占了市场了。
【作者介绍】 吴义坚,上海元趣信息技术有限公司创始人兼CEO、科学家、连续创业者。15岁进入中国科学技术大学少年班,获博士学位,游历东瀛,获日本名古屋工业大学博士后。曾就职于科大讯飞、微软亚洲研究院、担任盛大语音创新院院长。从事和领导智能语音交互技术和产品研发近15年,在国际会议和期刊上发表40余篇学术论文,并拥有多项国内和国际专利。作为一名80后的父亲,吴义坚在繁忙的工作之余发现了孩子陪伴和早教成长的痛点。他于2013年在上海的张江高科技园区创立了上海元趣信息技术有限公司,和自己中科大少年班的同学一起,用世界领先的技术,进行人工智能在幼童早教陪伴领域的产品和应用研发。