业界 | 2016 上海 BOT 大数据应用大赛闭幕:决赛11个聊天机器人项目盘点
机器之心报道
作者:吴攀
差不多自互联网诞生以来,bot 就成为了计算机信息筛选和整理中的重要技术之一。随着近些年来基于大数据的深度学习等人工智能技术的「复兴」,bot 也与人工智能结合到了一起,正在试图彻底改变我们与机器的交互方式。
2016 年 11 月 11 日,由上海大数据产业基地(市北高新)、上海大数据联盟、英特尔(中国)有限公司和华院数据技术(上海)有限公司联合主办,机器之心协办的国内首个专业化人工智能大赛「 2016 上海 BOT 大数据应用大赛 」总决赛在上海市北高新落下帷幕。20 支决赛团队在计算机视觉与人工智能聊天机器人商业应用这两大热门赛题上从全球近 400 支专业团队中脱颖而出,进行了精彩的终极对决。
其中,本次大赛的人工智能聊天机器人产业创新应用赛题致力于在人工智能聊天机器人应用场景、使用者体验、交互形式、商业价值等方面寻找新的突破和创新,期待参赛者挖掘出更多创新人机交互模式和创新商业模式。参赛选手提交的作品,聚焦教育、旅游、金融、美食、法律、政务等各个领域,创意十足,体现了对应用场景的创新和对产业需求推动的探索。
从 2016 年 9 月 1 日初赛开始到 11 月 11 日总决赛结束,经历了三个多月的角逐之后,最终人工智能聊天机器人产业创新应用赛题由来自虫门科技 Autololi 智能购车顾问项目获得桂冠。这篇文章将对本次比赛从参加「人工智能聊天机器人产业创新应用赛题」的 78 支参赛团队(共 220 人)脱颖而出的 11 强团队及其作品和技术进行盘点介绍。
1.Autololi 智能购车顾问
团队简介 :Autololi 智能选车顾问解决汽车选购过程中选项难收敛、信息获取烦、知识要求高的痛点,用 Bot 代替汽车垂直网站,打造 on-demand 的私人选车顾问。以选车切入,向用车、改车等场景延展,最终愿景:汽车的事儿,问她就够了。Autololi 的团队由来自微软工程院、腾讯、迅雷、华为的算法、前后端工程师和产品经理组成,平均年龄 27 岁,拥有成熟的产品、工程以及算法建模能力,同时又足够年轻,足够热泪盈眶。
成员简介:
-
罗志鹏(算法):北京大学软件工程硕士;2015 年 8 月至今工作于微软亚洲互联网工程院,负责基于 SVM 的短文本(query/tittle)多分类系统,Office365 智能技术支持客服等工作。曾多次参与竞赛,获得包括滴滴算法大赛(滴滴研究院)第 8 名,拍拍贷「魔镜」风控算法大赛第 3 名等成绩。擅长:机器学习、分类、聚类、文本挖掘、自然语言处理、数据清洗、日志分析、回归、推荐系统等。
-
赵文骁(前端):4 年工作经验,自 2015 年 4 月工作于腾讯互娱光子工作室;纽卡斯尔大学 CS 与游戏工程硕士;曾负责神庙逃亡中国版、腾讯桌球等项目的交互设计与前端开发。擅长:复杂的业务逻辑,Java,Node.js,C/C++,微信开发,产品设计。
-
张健霖(后端):8 年工作经验;2007 年至 2010 年工作于华为,2010 至 2015 年工作于迅雷任技术经理,曾主导开发多款游戏分布式系统、数据挖掘系统、官网系统、活动系统等。擅长:Java,HTML,Python,Java,PHP,微信开发,Android 开发,关系型数据库,NoSQL,Hbase,Hive,Hadoop,web 开发,linux 操作系统,多线程,架构设计、数据挖掘。
-
郭靖(产品):4 年工作经验,2011 至 2013 年工作于迅雷,2013 年至 2015 年工作于乐逗游戏任产品经理/发行制作人,2016 年入选硅谷投资人 Tim Draper 创办的 Draper University 孵化项目。擅长:产品定位,产品设计,产品运营,UI/UX 设计,市场营销,商业化设计,商务拓展,找人画饼打杂等。
作品介绍:
小白买车选车,不知道从何入手怎么办?Autololi 这款 bot 通过收集和分析网络上海量的关于汽车的评论以及用户的属性、需求、说话方式来推测适合用户的车,让用户在面对纷繁复杂的评论和车型时不再手足无措。Autololi 采用了女性人格的对话式交互方式(据了解后面还会以微信小程序的方式进行产品化。另外,这款 bot 还提供了汽车知识咨询和车型对比的功能。其所反馈的知识范围还能够根据用户的地域、年龄、车龄等背景信息给用户匹配最合适的答案。除了已经完成的功能,Autololi 还为后期的开发规划了报价咨询、油耗咨询、贷款咨询、碎片化信息收集等功能。同时也提出了较为清晰的商业模式。
技术介绍:
产品技术架构
-
意图识别模块:基于 GBDT 的 softmax/TF-IDF/sent2vec 的算法。即把 TF-IDF、word2vec 扩展词、sent2vec 作为特征,训练一个基于 GBDT 的 softmax 互斥三分类模型。其 softmax 训练数据来自易车网的「选车」问答板块 30 万+问题数据、「汽车知识」问答板块 6 万+ 问题数据和微信聊天记录里的 3 万+闲聊数据。
-
属性提取模块:基于中文分词/词性标注/依存句法/word2vec/模板方法。中文分词作为基础,依存句法用于识别用户的肯定、否定等态度表达,词性标注+word2vec+模板规则抓取用户表达中的车型、价格、偏好等 input 属性。其 word2vec 数据从各类汽车资讯爬取了 3GB、从搜狗搜狐新闻中爬取了 4GB,其中包含了 11.9 亿多词和 145 万多不同词。其分词词典来源于通用词典+汽车专业词典+人工补充。
-
语义匹配搜索模块:采用了改进版 CDSSM(卷积深层语义相似模型)/elastic search API。用户 query 与问题库问题进行匹配时,先通过 elastic search 进行初选,在通过改进版 CDSSM(卷积深层语义相似模型)匹配问题库中近似度最高的问题。其 CDSSM 数据来自于近 5000 万条搜狗用户点击日志。
-
推荐系统:采用了人工打分+强规则的方式。当抓取到用户足够的需求、偏好信息后,采用强规则筛选+人工权重打分的方式对结果进行抓取和排序。其数据来自汽车之家汽车口碑打分评论数据 30 万+条,汽车基础信息数据库 2 万+ 条。
2.BAL-cheeps
团队简介 :我们来自上海交通大学,背景不尽相同,但是因为同样的理想走到一起。如我们团队的 logo 所示,我们就像一只正破壳而出的雏鹰,发出第一声啼鸣――不鸣则已,一鸣惊人。
成员介绍:
-
吴学阳(组长):「我感到奇妙的是:事物何以总是集成一体。」
-
戴冠宇:用心打造产品,做一只快乐的设计狮
-
尚靖桓:我的世界 码上成真
-
王瑞扬:光电其骨 罗曼其心 胸有精技 手抚青丝
作品介绍 :招聘面试耗费巨大,人力物力时间成本高昂,而且效率到,招聘结果也很容易受到面试官个人看法的影响。让 bot 接替一部分招聘工作能有效地节省成本和提升效果。HRobot 是一款智商与情商兼具的机器人面试官。既能够帮助企业降低面试活动成本、提高面试效率和准确度;还能为求职者提供更公平的机会,也能帮助减少奔波的麻烦。
技术介绍:
工作流程
-
专业问答 :从自然语言的教材、讲义甚至网帖中识别和抽取知识点,构建知识库。利用上下文相关自然语言生成技术将知识库中对应的知识合成为自然语言,对面是这进行发问考核。不同知识点以树的形式进行存储。
-
联想追问:建立了提问的深度和广度两个方向的动态决策模型。通过挖掘关键词,进行提问决策。
-
情感引导:通过面试者的语速、反应速度、回答内容等评估和引导情绪。使用经验模型来自整合整个模型保证系统的流畅度和用户友好度。运用深度强化学习训练一个善解人意的对话机器人,而且它的「情商」会越来越高。
-
提取标签:运用改进的分类算法,对几个归类进行重划和增删。还运用了关键词提取技术,自动给面试者加上一些标签,比如:精通 C++、算法基础扎实等。
-
维度打分:使用自然语言处理技术,对面试者各个维度问题的回答进行分析并且打分,形成最终的面试者的智能分析表。
3.DeepLaw
团队简介 :热爱数据、热爱学习,希望结识更多给力的朋友,互相交流、一起进步。
成员简介 :
张宏伦:上海交通大学直博在读,数据爱好者。
作品介绍 :建设法治社会的基础是法律工作和知识的普及。但随着我国法律咨询需求的与日俱增,很多人却不知找谁帮忙、从何问起,而且向法律专家咨询的话费用高、耗时多。
DeepLaw 是一款专注于法律垂直领域的人工智能聊天机器人。其既可以像普通聊天机器人一样进行日常交流,也能进行法律法规和法律术语的专业知识问答,还能做到类自然语言和自由定制的法律信息咨询。该团队介绍这款 bot 能够在公众、法院和律师的三方互动中提供实际的商业模式和价值。
技术介绍 :
理论框架
数据层:语料和数据主要来自互联网抓取
模型层:关键词搜索(提取输入中的关键词,并在语料库中搜索相 关的对话)、机器学习(基于机器学习模型对聊天数据进行训练)、模板匹配(基于预先定义好的文本模版在语料库中匹 配相关的对话)、神经网络(基于 LSTM 等递归神经网络模型对聊天数据进行训练)
理解层
语言层
技术实现
4.ITour.AI
团队介绍 :张江波:中南大学本科,15 年 ITer,多年 3D 可视化系统开发及管理经验。现在为国内排名第一卫浴企业开发基于 3D 的线上定制柔性生产系统,年初开始接触数据科学,特感兴趣,从此一去不回头,希望推动机器学习在智能制造行业里的一些应用,些许实践经验。做旅游行业是因为长这么大没买过任何定制品家具,唯一定制的消费是自由行,另外考虑近年来各企业积累的旅游数据相对制造业来说更加丰满,所以有了这个旅游服务 bot。
作品介绍 : 通过智能化的推荐出行,构建和谐有爱的 B2B2C 的旅游生 态圈。为旅客带来不同寻常且只属于旅客的旅游体验及服务。构建旅游行业的 chatbot PAAS 云服务平台,为商家提供快 速定制属于自己的 bot 服务(如酒店、客栈专用 bot,可以 提供自动入住办理、接送、叫醒服务以及入住咨询等服务)。助力优秀商家,促进服务质量,弘扬旅游出行正能量。
技术介绍 :
框架
技术点一:bot 对话模型
技术点二::知识库及推荐模型
Google 的 Wide & Deep 模型,可 有效结合人工特征及深度学习模型 的优点,可以一定程度上解决稀疏 性的问题。Wide & Deep Learning for Recommender Systems (https://arxiv.org/abs/1606.07792)。根据 BOT 与用户对话提取实体及关 系,通过聚类等方法及时更新知识 图谱数据库。
5.study assistant
团队简介 :我们是一群致力于智能教育产品的人。
成员简介 :
-
王晓明(队长):毕业于北京交通大学,计算机科学与技术专业,五年大型互联网教育企业技术开发和管理工作经历。
-
赵振华:毕业于青岛理工大学,高级软件工程师。
-
刘一痕:毕业于中国人民大学统计学,高级软件工程师。
作品介绍 :家庭教育是孩子学习过程中的重要一环,但是很多家长 由于时间忙或者自身水平限制,很难对孩子给予足够好 的家庭教育。怎么办?SA 智能学习助手拥有海量知识,通过自然语言的人机对 话模式,儿童像和真实教师一样进行人性化的交流,营 造轻松、愉快的学习气氛或情景,充分互动,及时了解 学习中的问题,分析薄弱环节并针对性推送相关知识点,因材施教,实现精准、个性化的服务,满足不同学生的 特定需求,有利于学生身心的健康发展。解决了孩子的 家庭教育问题,切中家庭教育中家长知识储备和时间不 够的痛点!
技术介绍 :
使用流程
-
结合深度强化学习和 sequence-to-sequence 模型,利用一种 AlphaGo 式的机器互相对话的模拟方法,来学习更好的对话生成模型。
-
用自动或半自动知识提取技术构建大 规模的知识库。
-
先进的自适应学习引擎能够挖掘学生 的特长和薄弱项实现真正的个性化学习。
6. 难愚挖掘机
团队简介 :我们是一个积极奋进,低调务实的年轻团队,一步一个脚印,每分每秒前进。
成员简介 :
-
易向东(队长):难愚科技数据挖掘工程师,4 年以上数据挖掘经验,负责或参与过 IT 技术牛人推荐系统,主题推荐系统,情感分析,产品销售数据挖掘与业务支持。
-
王凯:难愚科技数据挖掘工程师,重庆邮电大学计算机科学与技术硕士,期待使用人工智能技术创造更美好的生活。
作品介绍 :一款基于聊天 Bot 的游戏 AI 系统,能与真实用户畅通的聊天;能向真实用户学习技能;能与队友沟通并调整行为。
技术介绍 :
技术架构
该版本的 Web Chat App 主要实现了一对一聊天和 web 接口,使用的数据是游戏玩家一对一的聊天数据,大概有三十万对左右。采用的分析与建模技术如下:
-
数据预处理:对话数据中含有道具符号,表情符号,各种标点符号,某些用户的习惯用语符号等,在该版本中均去除,分词工具使用了 jieba 分词。
-
词向量:由于数据量较少,得到的词向量质量可能不高,但还是尝试了使用 gensim 中的 word2vec 模块,具体使用了层次法和负抽样的 CBOW 和 Skip-gram 方法。并将词向量运用于下述的聚类及分类模型中。
-
句子向量:将一句话转成句子向量尝试了两种方法:一是计算分词结果对应的词向量的均值作为句子向量;二是使用 svd 降维 tfidf 矩阵后的结果作为句子向量。句子向量用于语义聚类及分类模型。
-
聚类:将对话数据中具有相似语义的句子聚到一个类,本版本中主要使用 k-means 进行聚类,尝试了两种距离度量标准:欧氏距离和余弦距离。聚类的目的主要是对于一个输入,不必扫描整个对话库,只需扫描与其相似的对话类簇来寻找回复。
-
相似性:根据输入的词向量或句子向量,寻找与其最相似的回复。相似性度量标准尝试使用了欧氏距离和余弦相似度。
-
二分类模型:Dual Encoder LSTM network 为一个二分类的 RNN 模型,模型输入为一对对话数据的词向量,分别按序输入两个 LSTM 网络,两个网络的输出与权重矩阵的乘积,作为最后 sigmoid 层的输入。训练集从对话数据构造,正例为真实的对话数据,负例为一句话及随机选择另一句话作为其回复。但是从训练结果来,效果较差。可能原因数据量太少,训练过拟合;也可能是训练集负样本构造不合理。
-
单分类模型:考虑到使用二分类模型时,需要从对话数据中构造包含正负样本的训练集,6)中负样本的构造不甚合理,人工构造也比较复杂,于是尝试使用单分类模型――One-Class SVM 模型。该模型的训练数据为真实的对话数据,不需要类别标记。
-
预测结果:当前版本的预测结果使用了聚类、相似性和单分类模型的融合结果。随着数据量的积累以及外部数据的获取,接下来会尝试使用一些深度学习模型来做。
7. 葡萄科技
团队简介 :葡萄科技自然语言团队组建于 2016 年 8 月,旨在打造具有陪伴、教育功能的针对 3-12 岁小朋友的机器人。团队核心成员来自原携程搜索研发部,在网络爬虫、语义理解、实体识别、搜索引擎、情感分析、知识图谱的推理及答案生成方面有较强的积累。
成员简介 :
-
张辉敏(队长):2007 年清华大学数理基科理学学士,2012 年清华大学通信与信息工程学硕士。先后就职于通联数据及携程,擅长自然语言处理。
-
邱小虎:2013 年于南京大学获取硕士学位,毕业以后先后就职于三星电子(中国)研发中心及携程计算机技术(上海)有限公司,擅长机器学习算法及句法解析,对智能电视开发也有一定了解。
-
王栋:分别于 2010 年、2012 年获东北大学计算机科学与技术系学士、硕士学位。先后就职于先锋商泰及携程,对搜索引擎技术有深入研究。
-
张炯:2013 年华中农业大学学士,2016 年武汉大学信息管理学院硕士。就职于葡萄科技,擅长爬虫和自然语言处理。
-
孟庆阳:2009 年西安理工大学学士,2016 年上海交通大学硕士。先后就职于携程以及葡萄科技,擅长知识图谱与机器学习。
作品介绍 :一款可与儿童进行互动的教育玩具。据称有巨大的市场潜力。
技术介绍 :
技术概览
8. 小白机器人
团队简介 :小白机器人是由「深智 AI 俱乐部」的成员组成的团队。俱乐部依托于哈尔滨深智科技有限公司的技术支持,团队成员来自哈尔滨工业大学计算机、力学、控制、管理、金融专业的博士和硕生,具有丰富的项目开发经验和管理能力,不同学科背景的交叉融合为项目的研发、管理、经营提供了全面的支持。
成员简介 :
-
史桦兴:俄罗斯圣光机硕士,哈工大博士在读。7 年人工智能研发经验,参与多项国家重大项目和自然科学基金。哈尔滨深智科技总经理。
-
张春越:哈工大硕士,哈工大博士在读。多年 NLP 研发经验,参与多项国家重大项目和自然科学基金。哈尔滨深智科技技术经理。
-
方志豪:合肥工业大学学士,哈尔滨工业大学硕士在读,
-
梅雪恒:本科就读于吉林大学,2015 年保送到哈工大,曾获国家级、校级奖学金多次,参与国家级课题多项
-
肖青博:鲁东大学学士,哈工大管理学院信管专业硕士在读。曾获国家级奖学金多次,参与过国家级课题立项,北京致远协创软件公司实施顾问
-
李小明:华东政法大学学士,哈尔滨工业大学管理学院金融硕士在读。取得法律职业资格证书,期货从业资格证,曾在律师事务所做实习律师
作品介绍 :中国亚健康人群比例达 70%,健康知识扑朔迷离真假难辨。针对需求越来越大的越来越多养生用户设计小白养生聊天机器人具有保健知识咨询(通过主动交互+问答形式为用户提供信息并建立用户健康跟踪档案)和定制健身计划(根据交互问答收集的信息为用户定制私人健身计划监测身体状况(如心率,血压),定时提醒进行健身训练)两大功能。
技术介绍 :
技术框架
技术:
-
主动交互技术&交互模版自动生成技术: 从知识库中针对特定话题抽取相应的 知识并自动生成模版, 后有人工对模 版进行筛选和检查.
-
问答技术: 基于知识库和文本的问答 或检索技术.
-
多轮交互技术: 由专家针对刻画用户 画像需求, 编辑的多轮对话模版
数据:
-
健康知识库: 网络收集, 专家审定后的 数据库.
-
健身方案库: 专家审定的健身方案数 据库
-
线下接口: 与其他平台对接的信息库
-
用户画像: 用户的特征数据库
9. 智言科技
团队成员 :
-
周柳阳:香港城市大学计算机博士,研究方向人工智能。悉尼 CGI』2014 最佳学生论文。2014-2016 年,香港慧科研究院,多个深度学习项目独立负责人。2016 年在香港慧科研究院主导的 AI 项目(深度学习+语义理解)获得 1702 万港币项目资助,其中香港政府无偿资助 851 万港币。
-
胡上峰:1999 年北京大学计算机学士,2011 年澳大利亚斯文本科技大学博士,研究方向自然语言处理,语义理解。1999-2006 年,作为联合创始人,参与创立并运营了在线科技有限公司,思能科贸有限公司,任职技术总监。2007 年,澳大利亚 Wealth Within Holding Ltd.,软件工程师。2012-2013 年,墨尔本创立 AIPioneer.com 研发聊天机器人。2014-2016,新加坡科技研究局资讯科技研究院任职科学家。
-
郑卫国:2010 - 2015 年,保送北京大学信息科学技术学院博士,研究方向知识图谱的查询和管理,并在多个国际顶级会议和期刊(VLDB、TKDE、SIGMOD、CIKM 等)发表论文。2013.3-2013.8,美国德克萨斯大学泛美分校,访问学者。2015-2016,香港中文大学博士后研究员。
作品介绍 :聊天机器人(ChatBot)是人机交互新入口。智言科技的目标是为中小企业提供定制开发服务、提供一键式解决方案。
技术介绍 :
智能对话系统架构图
10. 优尼克(Unique)团队
团队简介 :我们是独一无二的团队!我们来自万达信息股份有限公司,我司是国内领先的智慧城市领军企业。我们团队是一个具有创新精神、奋斗目标、专业知识的整体!
成员简介 :
-
张敬谊: 团队核心,负责团队作品技术支持及统筹。毕业于上海交通大学,博士,教授级高级工程师,万达信息股份有限公司大数据产品部总经理。
-
丁偕: 团队技术,负责团队作品技术支持及创新。毕业于南京大学,硕士,高级工程师,万达信息股份有限公司研发中心高级产品经理。
-
郭京洁: 团队技术,负责团队作品技术支持及策划。毕业于电子科技大学,双学士,工程师,万达信息股份有限公司研发中心资深技术专家。
-
佘盼: 团队运营,负责团队作品运营及策划。毕业于中国科技大学,硕士,工程师,万达信息股份有限公司大数据产品资深运营主管。
-
陈纯(队长): 团队设计,负责团队作品整体视觉及队创意策划。视觉策划核心 毕业于英国斯特灵大学,硕士,高级广告师,万达信息股份有限公司研发中心资深设计策划。
作品介绍 :中国现在正面临着比较严重的老龄化问题,具体表现为:老年人口高龄化、失能、慢性病老人多、「空巢现象」普遍、国民「未富先老」。优尼克(Unique)团队的产品目标人群是 60 岁以上的老年人。使用聊天机器人作为交互方式结合线上平台和线下服务,让机器人可以扮演智能管家的角色,走进老年人的生活,从「食」、「医」、「养」三个维度把控老年人的养老生活。
技术介绍 :
交互流程
-
自然语言处理(Natural Language Processing): 在与用户进行聊天交互以获取信息的阶段,从句法和语义的层面,理解自然语言,识别用户意图――要解决食、医、 养中哪个部分的哪些细分问题。
-
实体识别(Named Entity Recognition):从用户输入中,提取对任务有意义的信息,对应到已经建成的食材、菜谱、药品、体质、医疗术语等实体库中的 entity
-
情感分析(Sentiment Analysis):有针对性的询问用户,获取用户对某对象的评价,分析正面/负面情绪,积累对用户偏好的了解,获取更丰富的实时要素
-
关键词提取(Keyword Extraction):对用户沟通的历史数据进行数据分析和信息提取,给出相应的权重,以词云等形式直观表达,当用户在食、医、养等不同服务间切换时,可帮助快速进行用户画像
-
自动响应(Automated Response)
-
Task Oriented:Rule-based 与 Template-based 灵活结合使用、基于食、医、养的预设服务和模板
-
会话――序列型问题:seq2seq、部分运用 LSTM 解决、用神经网络学习专家会话 examples、专家纠正
-
避免冷启动:合理利用预设数据基础,避免冷启动、实时采集天气、流行病学、就餐时间
-
关注用户反馈:进行用户行为和偏好分析、关注用户评价、分析历史对话
-
在线评价和模型更新:A/B Testing
11.DeepInvest
团队简介 :
-
陶天问:多伦多大学应用科学与工程;优秀投资经历,机器学习;专注量化引擎,回测框架。
-
肖锦琨:西安大略大学统计学博士;数据挖掘,时间序列分析;BMO 银行模型风险部门,负责量化金融定价、资产评估、模型风险评估。
-
潘奉鉴:普渡大学云计算和人机交互;系统架构师,全栈工程项目经验,专注应用前端后端和用户交互。
-
刘宇熙:多伦多大学计算机科学;事实竞价广告领域数据科学家,多年机器学习、自然语言处理经验。
-
张劲翼:哥伦比亚大学机器学习和数据科学;全栈工程项目经验,专注机器学习和聊天机器人算法。
作品介绍 :中国证券市场存在个人证券投资难觅咨询、缺乏专业性易导致误读市场讯息、投资效率低下、精力有限而错失投资良机、个人获取资讯广度有限等痛点。DeepInvest 的目标是通过聊天机器人的交互模式提供实时客观的股票市场全局信息和个性化的股票投资咨询服务。
技术介绍 :
核心架构
©本文由机器之心整理, 转载请联系本公众号获得授权 。
?------------------------------------------------
加入机器之心(全职记者/实习生):hr@almosthuman.cn
投稿或寻求报道:editor@almosthuman.cn
广告&商务合作:bd@almosthuman.cn