AI知识图谱技术在爱奇艺产品中的应用
国际研究咨询公司Gartner调查指出,根据人工智能技术成熟曲线,有86%的人工智能技术尚未进入成熟期,但AI技术中也有非常成熟的AI技术,例如CV(人脸识别、体态识别等)、计算机听觉,MIC拾音提取音素等。
本文主要讲知识图谱中对相关AI技术及NLP自然语言理解(NER/ER/CR/RE)在爱奇艺产品中的应用。
一、需求:AI知识图谱技术应用的业务场景
我们看一个视频常常会在视频的旁边看到猜你喜欢,偶尔可能也会在视频上进行弹幕讨论一下视频内容,或者在看视频的过程中会看到与视频中某个内容相关的小广告飘出,还有为了看视频充值而咨询一下人工智能客服,又或者智能医疗,或者网上快速获得贷款的背后的金融智能风控等等。
总结下来AI知识图谱的商业应用需求场景如下:视频推荐,AI鉴黄、广告精准推荐、金融风控、教育(智能排课/监播体系/手写体)、医疗、投资等等,
二、概念:知识图谱的前世今生
知识图谱前世:
根据维基百科获得知识图谱历史即前世:知识图谱2012年加入Google搜索,2012年5月16日正式发布,首先可在美国使用。知识图谱除了显示其他网站的链接列表,还提供结构化及详细的关于主题的信息。其目标是,用户将能够使用此功能提供的信息来解决他们查询的问题,而不必导航到其他网站并自己汇总信息。即起始阶段知识图谱是Google的一个知识库。
AI知识图谱的今生笔者LineLian个人见解:
传统数据库——>知识图谱化,所有传统低效率的数据表现形式(指:数据相关架构、数据结构、数据表、数据库)都会逐步转向高效率的AI知识图谱化。原因是AI知识图谱才是用户想要的数据可视化,怎么理解呢?例如你搜索连诗路,是一个网页那就是传统数据库展示的结果,如果搜索连诗路显示上海路奇智能科技创始人,AI赋能AI重新定义产品经理等畅销书的作者,那么后者就是AI知识图谱实现的数据可视化。
三、视角:知识图谱处理视频中鉴禁语&鉴黄的应用流程
具体的业务问题是管理爱奇艺视频直播中的禁用词语和黄色视频,首先确定了AI知识图谱应用范围。然后步骤流程如下:
第一:数据的收集 & 预处理
建立一个禁用语语料库,这个禁用语可以有第三方语料库供应商提供,也可以自己建立,也可以在第三方语料库的基础上进行迭代匹配使用。
在数据收集和处理阶段会用到AI知识图谱的命名实体识别NER技术,也会用到关系抽取RE,实体统一ER、和指代消解ER等NLP的子技术。
原因是数据分为结构化数据和非结构化数据及半结构化数据,结构化是指数据库里的数据,而我们遇到的大多数数据是非结构化和半结构化数据,例如数据库不能直接存取的数据大多是非结构化数据。
以上图直播视频图为例,SS=手速,MS=秒射,而XD=胸大or兄弟?这里就需要AI知识图谱中的NLP的指代消解ER技术来理解处理SS=手速,MS=秒射,然后判断是否需要封锁背后的ID,当然做一款产品还要考虑封了以后的步骤,本文先不多说,日后再开篇撰写。
第二、设计知识图谱
关于知识图谱的设计有很多原则,总体概述下来有:以理解业务原则、以可以分析为原则、以高效为原则、以含可拓展为原则、以其他规则为原则等等。
但是设计知识图谱过程如下:
(第一):需要哪些实体、关系和属性?
连诗路与路奇是两个实体,合伙人是一个属性,智能是另外一个属性,连诗路与畅销书《AI赋能》是两个实体,作者是一个关系属性,还可能有2019年等等属性。例如下图:
(第二)、哪些属性可以做为实体,哪些实体可以作为属性?
构建ER实体关系图的时候,有些属性可以作为实体,有些实体可以作为属性,在关系转化中有两条准则如下:
(1)作为属性,不能再具有需要描述的性质。属性必须是不可分的数据项,不能包含其他属性。
(2)属性不能与其他实体具有联系,即E-R图中所表示的联系是实体之间的联系。
第三、讲知识图谱存在知识图谱数据库中
存储上要面临存储系统的选择,但由于设计的知识图谱带有属性,图数据库(区别于传统数据库SQL/MYSQL等)可以作为首选。但至于选择哪个图数据库也要看业务量以及对效率的要求。如果数据量特别庞大,则Neo4j很可能满足不了业务的需求,这时候不得不去选择支持准分布式的系统比如OrientDB, JanusGraph等,或者通过效率、冗余原则把信息存放在传统数据库中,从而减少知识图谱所承载的信息量。通常来讲,对于10亿节点以下规模的图谱来说Neo4j已经足够了。
四. 应用:爱奇艺智能客服奇小艺产品设计
1、构建奇小艺知识图谱
根据实体、属性两个元素完成一个知识图谱的构建,步骤如下:
1)根据知识领域对原始知识进行分类,如充值类、账号密码知识等,以部分充值类知识为例,包括“充值入口在什么地方?”、“充值的客服官方电话号码?”、“充值转让办理业务需要什么资料?”、“充值办理业务能不能退费?”等;
2)确定同类问题的实体,如步骤 1 中问题的实体为“充值”;
3)确定实体的属性列表,如实体“充值”的属性包括“官方入口地址”、“官方客服电话”、“服务内容”等;
4)检索实体的全部属性,确定所有下级属性,如属性“服务内容”的下级属性包括“电影”、“礼物”等;
5)重复步骤 4 直至不存在下级属性。
构建知识图谱如下图所示:
2、将奇小艺知识图谱实例化
知识图谱的实例化是指为知识图谱中的实体和属性设置条件、为属性设置参数以及为实例设置标准答案的过程。一个知识图谱可以有多个实例,每个属性实例拥有一个标准答案。
实例化过程如下:
1)确定待实例化对象,如“充值”;
2)设置条件,完成对象的实例化,如条件为“奇秀右上角充值入口”,得到对象实例“奇秀充值链接”;
3)确定待实例化属性,如“官方客服电话”;
4)设置参数,完成属性的实例化,如参数为“直播”,此时对象实例为“奇秀直播充值”,属性实例为“直播充值”;
5)为属性实例设置标准答案,如“010-xxxxxxxx”。
以上完成了一个实体及其属性的实例化,同一个实体可拥有多个属性实例,如对象实例“奇秀充值”的属性实例可包括“电影”、“直播刷礼品”等。
3、奇小艺智能问答
基于知识图谱的答案搜索首先需要进行中文分词,根据中文分词结果从知识库中搜索匹配。实例
化知识图谱如下图所示:
如上图所示流程中,系统依次从分词结构中检索实体、条件、属性、参数,确定实例化的属性,并返回实例化属性对应的答案,完成答案搜索。
五、推荐AI知识图谱相关的知识和学习的方法
首先是阅读书籍和在实践中学习的方法第一本是AI产品思维:
《AI+时代产品经理的思维方法》
第一本链接 http://product.dangdang.com/1422293336.html
第二本是《AI赋能:AI重新定义产品经理》AI技术助力,AI技术落地产品赋能的案例及去哪里学的方法。非常畅销,得到多位圈内朋友推荐。第二本链接http://product.dangdang.com/1501620523.html
另外最后需要会的知识和需要就相关知识发表个人见解也可以加文字及图中笔者微信交流,今天先写到这。