度秘正在重新定义Siri,“秘书式机器人”人人可能拥有
就在苹果秋季发布会的前一天,近20家中国科技企业在北京召开发布会,其中最受关注的是一年一度的“百度世界”。百度世界大会对标苹果的WWDC或Google I/O,向开发者、合作伙伴和用户传递百度在技术等方面的研究成果,因此每一年都会展出一些黑科技,2014年令外界印象最深刻的是“筷搜”,由百度CEO李彦宏亲自发布。今年李彦宏推出了名为“度秘”的秘书式机器人,并演示了一个惊艳的DEMO(DEMO看看就好,最新版手机百度已上线该功能)。这个度秘跟筷搜一样具有科技含量,不过相对于处于概念性阶段的筷搜而言,更具实用价值。
语音助手大都只是玩具
2011年苹果随着iPhone 4S一起推出Siri,将语音助手带入大众视野。随后Google Now、微软Cortana以及中国的百度语音助手、搜狗语音助手、智能360、虫洞、讯飞灵犀语音助手陆续面世。由于智能手机天然具备“听”和“说”的硬件基础,再加上移动互联网带来的语音场景,人们都认为语音助手是时候迎来爆发了。
这些年语音技术不断提升。语音识别、语义理解、语音合成和声纹识别几个领域的进展可谓突飞猛进。不过,中国语音巨头科大讯飞更多将技术应用到教育等行业应用中。而想要复制Siri的中国玩家们都没能成为杀手级产品——实际上,Siri、Google Now以及微软Cortana几个老牌玩家也表现平平。
为什么会这样?如你所见,智能手机的语音助手在过去很大程度只是“玩具”。人们许多时候都在调戏Siri,它的笨拙甚至会激怒用户恶语相向——不信去百度检索下东北司机怒骂车载语音助手的视频。识别率不够高、对噪音环境支持很弱、识别速度不够快、能回答的问题太少、很多任务无法完成……这是语音助手过去被诟病的地方。语音助手是刚需,只不过大家都没有完善的解决方案,正是因为此,语音助手市场机会重重,这是一块并未真正被开拓的处女地。
度秘要做秘书式机器人
很多人都幻想过拥有一位漂亮、贴心的秘书,对你言听计从、完成各种任务,不过聘请一个专职秘书可不是每个人都能负担得起。但如果机器能够做到这一点,相信没人会拒绝。遗憾的是,这类场景只存在于科幻片之中,机器想要跟人类一样聪明还需要很漫长的时间。不过,这并未打消探索者的勇气,百度世界大会推出的“度秘”则是采取秘书式机器人的思路——就像它的名字一样。
相对于各类语音助手而言,度秘有两个新的尝试。
1、与用户多轮对话,就像人与人之间的交流一样,基于上下文理解用户的意图。 要做到这一点主要是技术挑战大——机器识别单句自然语言的语义都不容易。基于上下文等于要不断记录交互过程,不只是理解单句话,要知道人类有时候都“跟不上”别人说话。百度基于深度学习的Deep Speech技术部分实现了多轮交互,这是更加简单、自然和便捷的方式。除了百度,微软此前曾推出过小冰对话机器人,有小道消息称微信或将推出类似的支持多轮对话的机器人——它们都是文本形式。
2、可以完成更多任务,主要是指获取生活服务。 李彦宏演示了通过度秘订咖啡、订餐厅、预订宠物医院、购买电影票等操作,整个过程是“连贯”进行的。这走在了前面:Siri最多被使用的设置闹钟、问天气、调用通信录打电话这类功能,是在操作手机本身,互联网内容和生活服务获取不是它的强项(最近Siri与百度百科达成合作来解决这些问题)。Google Now主要做信息推送,微软Cortana解决个性化资讯获取和设备数据处理,Facebook M正在小范围测试预订餐厅等服务,Magic以及国内的“神猪”通过人工处理用户的语音指令——跟12580等电话呼叫中心本质一样。只有度秘是自动化地获取多样化的生活服务。
几大语音助理对比
度秘之所以能够同时实现多轮交互和服务获取,我认为原因在这里:
1、深度学习为核心的人工智能技术被应用到语音,这是多轮交互的基础。除了百度,微软在人工智能上布局较早,所以可以做小冰,Cortana未来也可以支持多轮。
2、百度连接人与服务大战略下本身就在将越来越多的生活服务“搬到互联网”上,结构化、标签化、交易化,通过糯米、外卖、票务等子业务可以实现预订。就是说,百度有服务内容,同时具有服务内容和智能技术的玩家并不多。
3、识别率以及抗噪能力这两个基础技术足够用。今年早些时候百度曾宣布基于深度学习的语音识别技术超过了微软和Google,能够识别准确“听清”,是“听懂”的前提条件。
Siri正在被重新定义
巧合的是,据外媒报道9月9日苹果所发布的iPhone6S重头戏将是Siri。上个与Siri与百度达成合作引入百度百科内容,很大程度弥补了Siri内容不足的问题。Siri已经意识到现存问题,不甘只做被用户“调戏”的玩具。它想要重新定义自己,不再只做“语音助理”,不想将市场让给另辟蹊径的百度们。
通过语音识别来替换拼音的输入法,通过语音来设置手机闹钟,通过语音去关闭客厅的电灯,通过语音去点一首歌曲……都只是部分应用场景,主要在解决“交互问题”,即输入和输出,这显得有些大材小用了。在可见的未来语音助理都会向着秘书机器人方向发展,它可以帮助你安排生活、帮助你设置设备、按照你的指令设置环境、陪你聊天……就像秘书一样——当然,不能像实体机器人那样给你拥抱,帮你做饭,陪你睡觉,但是机器人都需要智能的语音能力。
百度首席科学家吴恩达在百度世界分享了一个很有意思的观点:很多人没有意识到95%的准确度到99%的准确度带来的是质变,99% is a game changer,99%准确度将彻底改变人与设备应用交互。他认为人工智能已经走向智能伴侣时代。度秘基于相对成熟的语音和AI技术,做到99%的程度是现实的目标,有望成为game changer。Cortana、Google Now、Siri们很快都会支持类似的“秘书式机器人”功能,新一轮厮杀已经开始。