简历也可以用AI?工具如何深度学习?猎励Talk Show第十一期给你答案
根据风投调研机构CB Insights的统计报告显示,2017年一季度共有34家AI创企被收购,这一数据是去年同期的两倍还多。从CB Insights公布的数据中可以看到,自2012年至今,谷歌的成果是最丰硕的——共计收购了11家AI创企,紧随其后的分别是苹果、Facebook和英特尔。
国内方面,百度重金押注人工智能,李彦宏还对外表示,百度是一家人工智能公司,度秘还成为了百度的实习生。BAT外,也有一些新兴的公司开始追赶人工智能大潮,前不久国内知名围棋选手柯洁惜败AlphaGo,随后搜狗王小川表示AlphaGo告诉我们人类还有极大地发展空间。
在人工智能领域的研究之外,更多的是对人工智能赋能行业的探索。猎励Talk Show第十一期聚焦细分行业,邀请简寻CEO何斌、极验验证CTO黄胜蓝分享关于AI+招聘、工具深度学习的实战经验与行业思考。
简寻CEO何斌:AI+招聘驱动招聘效率提升
简寻是一个针对程序员的数据驱动招聘服务平台,于去年5月完成了由上海六禾领投,长安私人资本和知卓资本跟投的500万Pre-A轮融资。
创始人兼CEO何斌表示,虽然自然语言处理在语义理解上还存在很大的瓶颈,但在招聘这样需要信任的行业,拟人化的AI难以满足现有市场。
在传统的招聘场景下,首先,国内的猎头手中拥有几千份甚至上万份简历都是不稀奇的,他们的管理办法是通过Excel形成自己的人员列表,简历基本上是原始Word形式,不可被解析和使用,传统ATS/猎头管理系统只能解决协作效率问题并没有解决数据使用问题。其次是在招聘渠道内,渠道的关注力还在于如何提供更多简历,社交渠道的搜寻和管理都极度不方便。像智联招聘等,只能进行原始的关键词搜索,搜索结果匹配度很低,无法表达猎头的诉求。
简寻创始人兼CEO何斌
如何高效地在大量人才数据中进行快速检索和匹配,是几乎所有招聘HR、猎头都面临的问题。真正落地的招聘AI,举例来说,如果HR看一份简历30秒,1000份简历需要7、8个小时,看的过程中还要筛选有效信息,如果对简历做一个平台,HR表达清楚自己的诉求,将不匹配的、质量不高的简历往后排,好的简历往前排。何斌表示,简寻目前基本可以达到在前100份简历中不遗漏好的人才。
AI需要场景和数据,何斌想要在行业中突破,首先要解决行业中环节性的东西,其次是要拥有大量的数据,在拥有数据的基础上,算法反而没有那么重要。
简寻目前的简历分类准确率高于91%。第一简历类别是对的,招安卓工程师不能来一个ios工程师。谷歌现在也在做职位搜索,他们也是从简历分类入手。简寻对文本进行中文分词,把核心词变成词的向量,就可以用词向量做训练分析了。
简历分类过程
但是,如果只做词向量优化程度有限,因此在这个角度上简寻开始使用自然语言处理,抽出有意义的技能词汇,形成知识图谱。目前而言,人工智能还做不到依据大数据做端到端的知识,只能事先做知识库的抽取和积累。最后是关系抽取,分析简历中“熟悉、掌握、了解、使用过”等程度词汇进一步分析简历。
何斌认为JD(职位描述)不一定真的能描述清楚HR需要的信息。有的职位非常专业化,HR可能不理解。简寻做的事是将简历浓缩成一句话,删去生僻的技能词,简明扼要地说清HR的诉求。
关于采集数据的持续训练首先是基于规则进行推荐,根据统计机器学习,根据已有推荐数据进行训练,基于协同过滤的推荐,根据HR看简历的行为估算HR对某简历感兴趣的概率;基于Learn To Rank的排序优化。
总的说来,是通过自然语言处理、知识图谱、机器学习、数据处理系统、分布式爬虫等基础技术获取信息,在招聘场景中的AI可以应用于人岗匹配、简历分类、简历解析、薪资预测、风险提示、虚假简历识别、按职位/简历精准搜索、跳槽时间预测等。最后形成的产品第一是数据驱动的猎头服务,第二是招聘效率工具自动化猎头,帮助HR/猎头更好的使用招聘渠道内数据、自有简历数据和社交数据。
国内外几乎所有、在机器学习领域做落地的招聘企业,很多还是通过机器学习卖简历。简寻更多的是站在工具的角度提高效率,不提供信息源,或者使用公开信息源。何斌认为,这将是下一个热点,据很多大牛判断,这一块不会像O2O兴起之后沉寂,在很多行业已经可以看到明显的效果,例如人工智能在看和听的方面已经超过人类。
但是在需要做长时间的自然语言场景还不够好。在医疗领域,图像识别开始发力,检测肿瘤几乎能赶上医生的程度。简寻选择了相对复杂的与人打交道的招聘角度切入,文本与图像识别交叉,近几年很难出现强替代型人工智能。
观众提问:
简寻本身是做2B的,在这个范围内也会有社交数据的搜索。武汉还是有大几千人在这个渠道内,但是国内大多数人会倾向于用简历,大家觉得性价比比较高。但是有一个场景是猎头,猎头确实在我们的数据,并且越高端的猎头越不会用简历。我们的数据一直是对内部猎头开放,现在也有计划对外开放。先使用简历将用户留在平台,再引导他们使用社交数据。
极验验证CTO黄胜蓝:工具深度学习让网络资产更安全
“拖动拼图到指定位置完成验证”,这样的验证方式在各类网站上都遇到过,相比起字符验证方便很多,这是由极验验证首创的“行为式验证”。2017年,极验推出了新产品“V3.0 极智时代”,以验证行为数据每天3亿条的速度进行深度学习,以更细的颗粒度让验证达到0.4秒就能通过的极致。
极验验证CTO黄胜蓝
极验CTO黄胜蓝表示,互联网业务的有如下三个安全特点:1、寄生性,如果不做好控制,会导致大量资源被薅走,如注册送红包等。2、形式多样,例如在某直播平台,会有人在代币兑换过程中玩花样;3、隐蔽性,过来薅资源的用户和普通用户非常相似,不容易发现。
对此,传统对抗方式有:1、构建IP、手机号、身份证等信息黑名单库,但中国人口基数大难以排查;2、制造复杂操作流程增加攻击成本,这一点也是伪命题,因为只要有钱赚他们并不会怕麻烦;3.构建规则系统审核业务数据,人然而规则是固定的人是灵活的,做黑产的人总能钻到空子。
分析完传统对抗方式的弊端之后,黄胜蓝认为业务安全的核心其实在于通过行为判断当前访客意图。做黑产的人不会自曝身份,只有有经验的“警察”才能加以分辨。行为分析的难点在于网站App端的多样性、人工特征表达能力有限、传统机器学习方法拟合能力有限。
黄胜蓝强调,近几年AI这个词已经被说烂了,他希望从更具体的深度学习角度切入。以深度学习在图像领域的具体应用——语义分割(如下图)为例,通过深度学习神经网络将一张图每个区域是什么类别区分开来,多应用于自动驾驶领域。
图像语义分割
深度学习在亮点之后的体现的本质是提供了一种强大的关系表达方法,反向传播结合梯度下降提供了一种通用的神经网络训练手段,结合起来我们就拥有了强大的关系拟合能力。机器学习用模拟进行数据拟合,而深度学习更进一步。
基于深度学习行为分析的好处首先在于突破了人工特征表达能力限制;其次,极验验证上线四年半时间在近20万家网站每天近10亿次验证,积累的行为数据全部应用在网络训练中;最终,深度学习利用庞大数据拟合出人类行为特性。
使用深度学习增强拟合能力之后,极验拓展了行为分析链条,将分析的视野从单个行为扩展到用户完整的访问链,普通用户会挑选再买,薅羊毛的会直接下单。同时横向进行群体行为分析,从数据集中看到异常用户(如下图,红色是混合异常用户的数据集)。
数据集中的异常用户
黄胜蓝认为深度学习应用的难点第一在于数据集,必须要有庞大的数据集才可以进行后续工作;第二想要保证流畅性需要技术体系进行支撑。
真正的深度学习跑起来之后有庞大的数据库支撑,还要保证在实现模型和指令集级共同优化的情况下,CPU单核7毫秒完成模型预测,对团队是一个考验;此外,还需要有自有分布式文件系统以及一个分配计算资源时间的调度平台。
观众提问:
同盾的解决业务方式是比较传统,收集有问题的数据,他们更偏用历史数据去决定一个人的未来。实际上有很大问题,首先以前干过坏事不代表以后还会做坏事,其次以前不干不代表以后不干,所以我们的核心是对用户当下的行为分析,通过访问链、群体行为的分析,来解决和同盾一样的问题——业务安全,但是我们更加扎到安全的本质。
圆桌论坛环节:
目前而言很多时候AI是深度学习的俗称,所以还是说深度学习。不管是做分类还是回归,AI本质都是关系的拟合,深度学习的拟合更为强大。它的魅力在于突破手工特征表达能力限制,帮助我们利用上了基于四年半积累的行为数据,拟合出了人类行为特性。
其实差不多,只是大家处在不同的level里。举例来说,在无格式简历中抽取有效信息的解析过程,在原来是通过规则,这一点巨头公司已经做了七、八年了,做规则的话我们不可能赶上了。但是通过自然语言处理会有一个机会。和极验验证每天几亿的数据量相比,简历数据量级本身不是特别大,全国大概有2亿人拥有简历,大部分还是沉睡简历。在这个基础上,自然语言处理与算法结合,于他们积累七八年的规则没有多少区别,因此不用再做核心规则这样空的东西。这也是有人说人工智能是第四次工业革命的原因,以前是强规则,必须是可表达的,现在可以是自己训练的模型来优化。还是很激动的,以前是人用代码规定机器,现在只用训练模型就可以。
其实深度学习神经网络的概念60年代就提出来了,现在才爆发的原因是计算能力的突飞猛进,网络规模大小足够拟合常用的业务,自然而然就在这些行业带来了革命。人工智能这一块有四个可以改进的点第一是计算能力;第二是模型算法本身;第三是与之对应的云计算平台;第四是数据,这四点都是对AI推波助澜的点,同时也是在未来会带来革命的切入点。
前一段时间和前辈聊天的时候,发现他们对此持有很乐观的状态,如果人工智能能达到行业中上水平,这个行业就很危险了,如果达到较高水平,这个行业基本会淘汰了。举例来说,现在已经淘汰的有火车站门口看身份证验证的工作,因为人工智能的人脸识别已经超过了人。自动驾驶在有限领域已经开始应用了,谷歌已经可以做到很多领域。如果想要爆发的话,需要对行业中的人有相对较大的替代。最重要的是需要对行业有大量的数据积累,现在有很多医疗图像识别的早期没有数据,就为医生搭建一个分享医疗片子的平台。原来的规则是比较容易理解的,比较容易替代。招聘是比较复杂,不容易替代的。短期之内,在简单特定场景会比较容易出结果。在法律、招聘等领域反而比较复杂,短期内不会被干掉。
产业就是我刚才说的四个,第一是计算能力,第二是模型本身,第三是与之对应的云计算平台,第四是数据。最具体的是芯片,芯片并不是遥不可及的,因为都在同一起跑线上,这有可能是国内芯片产业弯道超车的一个机会。模型本身不讲,其次是云计算,云计算很火,随着深度学习可能会对云计算的形态产生变化。最后是数据,想要用深度学习做应用必须要有数据积累,事先已经切入这个行业,有一定的数据积累,载用深度学习改进,可能只能这么去做。但是在未来,也有可能会产生专门去卖数据的业务形态。以上是我认为有可能爆发的行业。
这一块行业太多了,这其中技术不会是瓶颈,瓶颈会是如何发现用户需求。社会供给端是比较充裕,主要是需求。行业比较多,能看得见的有自动驾驶,如果能成功会有至少5%-10%的人失业。只要行业不是很复杂、好积累数据的行业比较危险。和人打交道或是需要创新的行业暂时是安全的。比较难说,行业太多了。速记员、简单口译也很危险。还有很多看不见的图像、语音自然语言处理等方面,一时半会还没有找到本质上突破点。基本上,从行业本身和技术发展的角度,这个关键点我要找到我也去做了,这么大的行业也不能一下子找到。