不仅是游戏!必应读心机器人背后的搜索引擎演变猜想 | 极客公园
不仅是游戏!必应读心机器人背后的搜索引擎演变猜想
必应读心机器人是由微软亚洲研究院开发的一款游戏类 app,其背后依托的是社会化搜索引擎“人立方”的互联网信息抽取和集成技术。人立方的工作原理是基于“六度空间”理论,从海量中文网页中提取出人名、地名、机构名及中文短语,通过算法对这些信息进行适配,从而得出一张张关系图谱。其实说白了也就是网络上常说的“人肉搜索引擎”。
&
而必应读心机器人将关于人物的关系图谱扩大到物品、事件、地点等方面,形成与人物关系图谱类似的特征图谱。在进入必应读心机器人时,用户先要在心里想好一个答案,然后在“切换频道”菜单中选择这个答案所属的类别。目前必应读心机器人提供的分类有人物、影视、生物、东西、食物、文学、音乐、地点、结构和事件。
游戏方式
在开始游戏后,必应读心机器人最多会问 20 道问题,每道问题都有“是的”“不知道”“不是”三个选项,由用户根据心里已有的答案作出选择。在所有题目答完后,必应读心机器人就会给出一个结果。如果该结果与用户脑中所想的并不相符,那么必应读心机器人就会邀请用户提供正确答案。
在反复游戏后不难发现,必应读心机器人猜测当前热门或历史上较为知名的人物、事件,以及日常生活中的常见物品时,能够达到相当高的准确率。但是换作冷门的人物、事件,或者是用户对自己的答案并不足够了解的话(很多问题选择“不知道”),那么必应读心机器人给出的结果就会出现较高的错误率。
工作原理
至此必应读心机器人的工作原理也就不难理解了:其初始数据来自于人立方搜索引擎已有的信息聚合数据。在每次的游戏过程中,必应读心机器人通过收集用户的选项,形成多数人对某一答案的共同认知,从而围绕该答案形成特征图谱。用户提供的数据越多,特征图谱越详细(尤其是热搜词),必应读心机器人就会表现的越智能,“读心”能力也就越强:
-
如果用户心中所想的是热门词汇,那么不需要答完 20 个问题,必应读心机器人在提问 10 多个问题后即可给出答案(笔者测试“毛泽东”,在答完 12 个问题后就给出了正确答案)。
-
所提问题的针对性逐渐加强,有时能够直指答案的关键特征(笔者在测试“东尼大木”时,机器人的第 13 个问题是“是否长得很像某个明星”,第 14 个问题是“是否剃过光头”);
满足求知需求的尝试
必应读心机器人游戏外壳的背后其实是未来搜索引擎形态的写照。用户使用搜索引擎的根本出发点是寻找“正确的答案”,但从目前搜索引擎的工作方式来看,主要仍是根据用户搜索的关键词给出成千上万条搜索结果,让用户在浩如烟海的信息中自己去找答案,而且答案之间彼此冲突的现象并不少见。加上基于计算机算法的非人工干预的收录方式,使得搜索结果中亦不乏大量垃圾信息。
面对用户通过互联网“找答案”的需求,问答社区网站如国外的 quora 和国内的知乎应运而生。问答社区的答案来源并非网络搜索,而是直接将各行各业的知识精英、专业人士纳入社区中,为其他人提供权威和专业的答案。用户提供的知识越多,就能得到越高的评级和认同。但是这样的问答社区主要存在两处短板:一是知识覆盖面有限,有小众倾向,其用户群向中高端人士聚拢;而是响应速度滞后,用户要先提问再等待有人来解答,不能像搜索引擎那样立搜立得。
facebook 推出的&graph search(社交图谱搜索)是搜索模式的重要突破,其原理与人立方类似,都是基于对庞大用户数据的集成和分析。facebook 由于本身就是社交网站,已经积累了大量真实有效的用户数据,使得 graph search 的搜索能够更精准,提供的人物信息量更全面,但它毕竟不是通用的,其搜索结果只能限于社交领域,对用户形形色色的信息需求难以满足。
搜索引擎的演变可能
所搜即所得 —— 这是每一个在互联网上寻找答案的人的共同愿望,也是搜索引擎所一直努力的方向。从必应读心机器人的游戏过程来看,未来搜索引擎的演变可能会发生在以下几个方面:
-
用户在输入问题时条件越详细,答案越精准。比如提问“感冒吃什么药”,用户在搜索区键入病症表现、过敏反应等信息后,搜索引擎会给出一种最佳的药物。其实这个功能在目前已经部分实现了,当用户在百度搜索“五一放几天假”时,答案列表最上方会直接显示出放假日程表。
-
提高可信答案的排名和评级。这点会从问答社区吸取经验,通过搜集大量用户反馈信息形成数据库对收录的信息进行重新排序,专业、权威、可信的答案会被优先呈现。当然,此功能涉及搜索引擎算法的重大调整并需要一个相当长时间的来生成反馈数据。
-
扫描和分析整个互联网,形成庞大的知识谱系。所有零散的信息通过搜索引擎按照相关性重新整合,使用户搜索所获得的答案从关系上来说更加贴近,避免出现风马牛不相及的结果。
不仅是搜索引擎,未来任何互联网产品的升级都离不开大数据。通过对用户数据的整合与分析,人们必然能够享受到更加智能和人性化的服务。这也是科技能够带给人类的最美妙的改变。
原文地址:http://www.geekpark.net/read/view/177209
- 信息集成
- 知识谱系
- 搜索引擎
- 数据分析