人工智能为你做主:AI能否改变求职不公与偏见?
人工智能算法不仅能考虑更多关于求职者的信息,还能做出比人类更客观的判断。
“是数据令牌将你浓缩成为了数据对象。”Pete Kazanjy 如是说,他创立了提供社交网络招聘服务的公司TalentBin(现已成为美国知名度最高的招聘网站Monster的一部分)。这在硬性的数字指标上尤其正确,谷歌的力资源部门 People Operations 的高级副总裁 Laszlo Bock 在 2013 年接受《纽约时报》采访时说:“我们从我们的数据处理中看到:GPA 在作为招聘指标上毫无价值,考试成绩也没有价值。”
越来越多招聘领域的科技公司正在努力挖掘更多关于求职者的信息——调查、工作样本、社交媒体帖子、用词选择、甚至面部表情。在人工智能的帮助下,他们希望在评估求职的工作技能的同时了解他的同情心、勇气和偏见等个人特质,从而在更丰富的信息的基础上更深入地了解该候选者是否合适其应聘的工作。“这将在未来几年内迎来爆发,”成立于 2013 年的基于人工智能的评估公司 Koru 的 CEO Kristen Hamilton 说,“我们已经将这种数据导向的方法应用到了我们公司和业务的每一个其它方面。”我们来看看这些人工智能驱动的评估方法,看它们如何看到求职者、如何看到招聘中的“科学”。
机械化与古老的实践
HireVue 公司 CEO Mark Newman 说,深入理解求职者的心思并不是什么新鲜想法。HireVue 成立于 2004 年,是使用人工智能进行招聘工作方面一家先驱公司;其专长是通过视频分析了解个人的特质,包括工作倾向度、动机和同情心。(尽管它也使用书面文字进行评估。)该公司所分析的数据包括用词选择、说话速度、甚至微表情(稍纵即逝的面部表情)。而且和大部分我有聊过的公司一样,该公司也尚未实现盈利。
第二次世界大战之后,招聘的方法中包含了类似麦尔斯-布瑞格斯性格测试等工具,另外还有结构化的行为面试:询问每一位候选者同样的问题,然后将他们进行客观比较。另一种经典的深度了解工具是工作样本测试——执行工作中的模拟任务,比如让软件开发者写代码或让客服代表接听(假的)愤怒顾客来电。但这些评估策略所使用的人却是很繁忙的,而且可能是带有偏见的。
“结构化面试好多了,比非结构化面试更少偏见。”Newman 说,“但由于人类的本性,很多招聘经理仍然将个人偏见带进了结构化面试中。”而且工作样本评分的工作会让软件工程师等员工从自己真正的工作中脱离。但如果不知疲倦的机器能够取代负担过重的人类呢?Newman 说:“这是使用今天的技术,推动已存在了 50 年的科学。”
如果机器能做这些工作,那这些自动招聘经理能做到何种程度?Kazanjy 说它们至少能剔除那些没有足够的技能胜任工作岗位的人。
成立于 2015 年 7 月的 Interviewed 公司提供了几个层次的测试方法。首先是了解求职者对如 Microsoft Excel 或 Salesforce 等软件的了解程度的选择题。Kazanjy 认为该软件甚至可以走得更远,例如评估程序员。“代码样本中的错误可以通过编程方式检测,书写的英语样本中的拼写和语法错误同样也可以通过编程方式检测,”Kazanjy 说,“你不能自动在 A+、B+ 和 B 的工作之间做出评价,但也许你可以直接剔除 C 的工作。”
识别危险信息
但企业考虑员工时不只会看技能,还要了解他们是否是种族主义者、性别歧视者或有暴力倾向。一家名叫 Fama 的公司试图通过自动网页搜索进行判断,其搜索范围包括相关的新闻报道、博客、社交网络(如 Facebook 、Google+、Instagram 和 Twitter)等。Fama CEO 兼创始人 Ben Mones 说:“43% 的企业在使用社交网络筛选求职者。”
公司擅自对求职的社交网络进行调查可能会违反法律,如美国 1970 年颁布(已经过多次修订)的《公平信用报告法(FCRA)》让消费者有权利就用于就业调查和信用评估中其公开信息的准确性提出挑战。Mones 说,Fama 遵守 FCRA 的规定,例如在其收集求职者的信息时通知他们、取得他们的同意、并向他们分享结果以便他们有机会做出回应。
成立于 2015 年 1 月的 Fama公司,通过挖掘语言和照片让雇主在招聘中可以考虑到以下信息:偏执、暴力、猥亵、性违法问题、酒精使用、毒品使用或交易。 该公司雇佣了数十人来阅读社交网络上的帖子,寻找分类与评级冒犯性内容的方法,然后再使用这些结果训练其自然语言处理(NLP)人工智能执行同样的工作。
我请 Fama 为我生成一份报告。软件拉出了我的几篇文章,并标记了几条我对“占领华尔街”运动的几条辛辣的推文,还加上了我对“damn(该死)”这个词的使用。“我们不对求职者评分,”Mones 说,“我们只是提供了一种自动化过滤的方法,通过它你可以在社交网络的海洋中捞到那些针。”
“我们根据很长时间的行为历史创建评估,”Pete Kazanjy 说,“如果某人在 3000 条推文之前发了一些种族主义的言论,你找不到它,但机器可以。”今年夏天,Fama 预计还将推出标记求职者的正面特质的功能,比如关于志愿者工作的帖子。
获得合适的匹配
正面特质是 Interviewed 公司消费者服务类工作的测试中很重要的部分,在测试中,求职者会与代表客户的软件机器人使用文本或电话聊天。Interviewed 的客户包括 IBM、Instacart、Lyft 和 Upwork,而且该公司表示已接近于盈利了。Interviewed 正在开始自动化某些技能的评估,该公司创始人兼 COO Chris Bakke 将这些技能成为“软技能”(如:善解人意)的评估。 公司要求招聘经理查看测试成绩单,并以 1-5 分的标准评估候选者在软技能上的得分,然后 Interviewed 再使用机器人学习,应用自然语言处理、寻找大量数据中的模式。 Bakke 说:“我们发现,当一位客户支持岗位的应聘者在对话中包含了三次‘请’、‘谢谢’或某种形式的道歉(‘我很抱歉’)时,招聘经理和面试者就会有四倍的可能性,更倾向于认为和评价其是善解人意的。”Bakke 将这种数据指导称为结构化的人工审核过程:人类仍是关键。
Interviewed 的系统中,招聘经理创建的招聘报道节选。从左到右列分布为维度、打星评分、百分百和分数。其中,维度包括整体评分、沟通技能、视频技术、细节关注度、同理心、职业精神等。图片来源: Fast Company 。
Bakke 说, 随着 Interviewed 收集的数据越来越多,其评估也变得越来越复杂,并在逐渐从技能测试,进化到评估一位候选者是否适合该组织的文化。 这一进步使其进入了 RoundPegg 等公司所在的领域。其在线的 CultureDNA Profile(文化基因档案)是从看起来像是冰箱上的便条开始的。从 36 个选项中,用户将类似“公正”、“以团队为先”和“表现好收入高”的词或短语拖动到他们 9 个最重要的价值和 9 个最不重要的价值的空格中。RoundPegg 财务总监 Mark Lucier 说:“你在最类似于你的环境中,表现最出色。”成立于 2009 年的 RoundPegg 已经吸引了一些大牌的客户,如 Experian、埃克森美孚公司、Razorfish、施乐、甚至 HireVue。
RoundPegg 的工作有点类似于基于调查的交友网站 OK Cupid:客户通过对当前员工的测试确定其公司的文化。然后对申请人进行评估,看其个性与公司文化的匹配程度如何。我在该测试上花费了大约五分钟时间,我发现我比全国 95% 的人都更喜欢一种“培育(Cultivation)”特征的公司文化,即“关注成长的潜在和提供的机会,规则和控制的重要性更少”。在另外三种文化中,我在“合作(Collaboration)”上得分为63,在“胜任(Competence,希望在其领域内成为专家的人)”上得分为 62,在“命令(Command,角色有明确的定义,且系统和政策到位以确保每一次都按照同样的方法完成)”上得分为 20。对于我这样一个离开办公室工作从事自由写作的人来说,这样的评价似乎是正确的。
对有希望的候选者,RoundPegg 生成的详细后续测试,其中有一个这样的问题:回想一个过往的情景,当你合作的同事或团队更重视、鼓励团队成功而非个人成功。请描述一个这样的具体案例,该情景对你带来什么样的问题,并且你如何解决这个问题。图片来源: Fast Company 。
然后 ,RoundPegg 通过个性化测试帮助企业更深入地挖掘,以评估不适合该公司的价值观的“风险”。我的评估表明,我不认为团队成功优先于个人成功。为了进步一确认这一点,软件建议公司在面试中向我提问,过去在团队导向的环境中是怎么处理工作的。
获得正确的员工
Koru 公司则更进一步,它不仅可以评估一个人是否适合某个工作,还可以评估他是否擅长这个岗位要求的技能。该公司最开是为大学毕业生提供培训计划,教导大学毕业生发展 7 种名字模糊的能力,如勇气(Grit)、优雅(Polish)和影响力(Impact)。之后 Koru 扩张到了求职者测试领域,可以通过收集和检测一堆数据来评估这些能力。雇主可以基于 Koru 的个人特质得分对求职者进行评估,可以代替丰富的工作经验。
人工智能为这样的测试提供了支持,Kristen Hamilton 说,因为其针对不同类型工作中最成功的人的特质,进行逆向工程,以此为基础。 使用 Koru 的服务公司包括 REI、Zillow、Yelp、Airbnb、Facebook、LinkedIn、Reebok 和 McKinsey & Company。
“他们告诉我们谁在不同水平上表现良好,然后我们说,好,让我们在这个数据集中寻找模式。”Hamilton 说。她与 Josh Jarrett 联合创立了 Koru,Jarrett 是比尔和梅林达·盖茨基金会的下一代学习挑战计划的负责人。
逆向工程也是 HireVue 哲学的主要部分。“在我们整个数据库中,我们有几千万个面试问题的回答……每个回答都有丰富的信息,可供我们参考了解。”Newman 说,“所以,当你分析这些碎片并跟踪结果,你就从中开始建立这些真正的高度预测的验证模型。”Bakke 说 Interviewed 也正向着同样的方向发展。
Koru 的评估包含一些直觉的选择。你更同意以下哪个称述?
选项一:我可以通过人们的语调知道他们的感受;
选项二:我倾向于讲究细节。
和 RoundPegg 的五分钟测试不同,在 Koru 的测试中我用了 30 分钟回答了 82 个问题,并录制了一段 2 分钟的视频。其中一些问题有点让人头疼。你更同意以下哪个称述?“我喜欢看到我的努力取得的切实成果”还是“如果我不明白,我不害怕提问”。我也需要处理场景的问题,例如如果我们没有足够的时间完成一个大项目,我如何应对我的团队和老板,然后从四个选项中选择一个。
在总分 10 分的评估中,我得分最高的三项影响力技能中,有得分“非常高”的“优雅”(有效沟通)和“好奇心”(两者均为 8.3 分),“勇气”上得分为“高”(6.7 分),其如此描述:“当事情变得艰难时,继续坚持的能力。当方向不明确时,应聘者可以解决模糊的情况。”
“作为一位组织心理学家,我的问题是,你说你能测量各种花哨的流行词,随便你爱怎么说好了。”IBM Kenexa Smarter Workforce 部门员工声音和评估主管 Jay Dorio 说,勇气是一个很棒的特质,但他将其称之为“多余的时髦东西”,可能带来不良的影响——看起来中立的招聘标准,当做法律术语却可能是歧视性的。
人力资源服务商 Kenexa 在使用人工智能上也很谨慎——作为 IBM 公司的一个部门来说算是很谨慎,要知道,该公司正在推广其部署人工智能平台 Watson Analytics(沃森分析) 的新方式。Dorio 说,Kenexa 在一些产品上使用了沃森,比如分析员工调查的结果,但不使用人工智能对员工进行评估。
Koru 的 Hamilton 具体提到了负面影响。他解释说:“我们已经进行了多个研究小组的研究,确认我们的评估不会对申请者带来负面影响。”事实上,一种数据驱动的方法很有可能是更客观的。她说: “有一些招聘过程其实一点也不复杂,比如说我们喜欢足球运动员,因为他们从不放弃,那么,我们就招募足球运动员吧。”
这并不是笑话。Pete Kazanjy 说,运动员经历已经被当做作为评估求职者的标准,这已经有一段时间了。具备这种经历的人被认为是有高竞争力的、愿意接受教导、有能力依靠自己思考。“他们也许是对的,但是要说一个上过物理课的运动员或一个足球运动员,会不会成为更好的员工或更好的执行者,他们完全是在猜测。”Hamilton 说,“我们使用科学的方法检查任何我们希望考虑的输入……并确定它们的预测能力。”
via FastCompany