掌握数据科学的艺术——如何建立具有凝聚力的团队,创造卓越的业务成果-36大数据
文 | IBM 商业价值研究院
执行摘要
在当今的数字时代,数据科学是高管们热议的话题之一。引领数字化颠覆潮流的高管讲述了他们如何应用数据科学解决复杂问题,发掘有价值洞察的故事,这也引起了全球听众的共鸣。但是,对于希望通过数据获得深入洞察和价值的高管而言,必须明白在制定强大的数据科学计划方面的需求和风险。
麦肯锡公司预测,仅在美国,深度分析专业人员职位的供需缺口在 14万到 19 万个之间,而且他们指出,这种人才短缺是全球性的。该研究公司解释了培养此类人才的难度,估计需要“数年时间才能培训出具备内在数学能力的人才”。
全球对数据科学家的需求如此之大,以致招聘公司 Glassdoor 将其列为美国最热门的职位,并在工作满意度和职业发展机会方面都给出很高的评分。近期一项针对 LinkedIn 的全球数据库分析(重点考虑代表性的市场领域)结果表明,数据科学家职位缺口超过 60,000 个。而另一项分析结果显示,全球范围内仅有 11,400 名专业人员具备所需技能。此外,数据科学家职位的数量有了“令人瞩目的增长”,LinkedIn 上自称“数据科学家”的人中,至少有 52% 在过去四年内获得了这一头衔。
以智能方式获得关键人才和技能
全球的企业高管都在寻找提升收益、提高运营效率、改善影响分析和降低成本之道,这使得数据科学家的重要性愈发彰显,因为他们能够在决策过程中提供丰富而有价值的信息。成功的数据科学家能够帮助企业领导理解挑战、定义分析解决方案并分析数据,从中发现创新和洞察。如今优秀人才供不应求,因此,如果企业希望建立或扩大数据科学团队,就必须采用智能化的方式。 本报告提供了相关的专家建议,探讨如何建立具备相关经验、扎实的学术基础、不同背景和技能、能够设想并努力实现目标的强大人才团队。
数据科学家的薪酬非常可观,企业聘用以及留住此类人才的成本也相当高。美国商务部的研究发现,数据工作者的薪资平均比私营企业工作者总体水平高 68%,而且数据科学家则是所有数据工作者中薪资最高的群体。
这种供需之间的不平衡给求贤若渴的高管层带来了风险。要获得深入洞察,解决企业所面临的最大挑战,也就是运营优化、创收和创新,就需要真正的数据科学家发挥自身所具备的科学和艺术才能;如果数据科学家经验不足,或者未经过充分培训,那么他们所采用的错误方法或有缺陷的分析可能会导致灾难性后果(见图 1)。
要建立能够实现出色解决方案的成功数据科学计划,招聘数据科学家只是步骤之一。而要实现这些目标,高管还需思考组织架构、工具、途径和结果。几十年来,拥有实际经验的数据科学家们致力于解决重大的战略性业务挑战,为数以百计的客户团队提供咨询,并对 IBM 内部和外部成千上万有望成为数据科学家的人员进行培训,这样“三管齐下”,使我们取得了不小的成就。
这些经历帮助我们形成有益的经验总结。在这份 IBM 商业价值研究院报告中,我们就企业在建立有效的数据科学计划时需要考虑的关键因素提出了自己的看法 – 以技艺精湛的数据科学家为中心,创造适量的数据科学艺术,实现令人瞩目的成果。
寻求具有相关经验的专业人员根据 IBM 的定义,数据科学家与业务领导合作,通过理解、准备和分析数据,预测新趋势,提供有助于优化业务结果的建议,从而解决各种业务问题。在这个定义中,包含了数据科学家要取得成功必须具备的五个关键特征:
敏锐的商业头脑:了解企业业务战略和执行;能够倾听领域专家的意见,快速掌握基础业务流程并了解其运作方式;具备将业务问题转化为分析解决方案的专业知识;还应具备企业转型经验。
深厚的分析专业知识:能够确定用于解决各类业务问题的适当分析技术;精通基本和高级的数据挖掘方法,包括回归分析、聚类分析、决策树、神经网络、贝叶斯机器学习方法以及优化、模拟和随机分析。
高级软件知识:能够确定要使用的软件包;具备 SPSS Modeler、 SPSS Statistics、SAS、R、Python 等关键工具的使用经验;能够设计、开发和应用适当的计算方法来解决业务问题;并且能够创建可重复的自动化流程。
21 世纪的数据管理技能:了解关键的内部和外部数据源以及如何收集、存储和检索数据;拥有处理大量数据(结构化和非结构化、本机和非本机)的经验;熟悉大规模并行平台;熟悉 SQL、NoSQL 和 Hadoop 等工具;熟悉 HDFS 基础架构,如 Pig、Hive、Hue、 Sqoop 、 Hbase 和 Flume ; 熟 悉 加 速 器 ( 如 PureData 或 Exadata)和数据分析语言(如 Groovy)。
远见卓识以及讲述技巧:能够有效地将分析部署到企业之中,创造出色的价值;协助高管重新设计业务流程;利用机器学习、人工智能和认知解决方案自动执行规定性行动和持续学习。
这五大特征只是“入场筹码”;相反,快速区分出色和良好数据科学家的则是软技能:好奇心、科学思维、沟通和可视化技能。数据科学家依靠这些软技能在企业内与其他员工建立协作关系,与利益相关方合作并进行有效的展示。好奇心可以帮助数据科学家深入其他人尚未探索或未曾考虑的领域,以独特的角度审视业务挑战,拓宽企业的思维。专注于问题的科学思维,不仅仅是研究使用哪些工具和数据,还需要帮助数据科学家着眼大局,制定执行计划。沟通能力和可视化技能体现数据科学的艺术:能够将数据科学化繁为简,体现为切实可行的措施和可预测的结果,并通过各种数据动画和可视化方法、图表和图形呈现出来。
擅长所有这些技能的专家非常罕见(因此许多人称之为“独角兽”)。企业高管应当对这些特征进行优先排序,根据企业的具体情况明确哪些是最重要的,并寻求最合适的候选人,而不是寻找像神话动物般罕见的全才。可以利用大型数据科学团队的专业知识来弥补差距。
需要强大的学术基础来实现深度科学
从根本上说,数据科学是一种扎根于强大学术背景的专业。高管应当寻找接受过定量研究学科(比如统计学、运筹学、机器学习、信息学、计量经济学或物理学)学术培训的候选人。一项对 LinkedIn 全球数据库的分析发现,80% 的数据科学家拥有研究生学位,其中 38% 获得博士研究生学位,42% 获得硕士研究生学位(见图 2)。
数据科学团队中初级水平的成员应具备定量研究学科领域的学士学位,可能还需要线性代数、应用统计学和机器学习等学科的培训。根据我们的经验,在这些领域中拥有高级学位的人才有能力从事数据科学项目。
现在出现了一个新趋势,那就是企业将商业智能 (BI) 分析师改头换面,经过粗略的课程和工具培训,就当作数据科学家使用,这一点十分令人担忧。我们认为这是非常危险的权宜之计,高管应当谨慎对待。虽然大多数经过培训的分析师确实可以在职能或部门层面执行探索性或初级数据科学活动,但我们不认为他们有能力取代负责企业使命而且训练有素的数据科学家。我们认为,这些新任命的数据科学家通常准备不足,无法针对战略性的业务挑战提出能够创造价值的解决方案,也可能无力领导成熟的数据科学团队。
数据科学家作为“开路先锋”,发挥着重要的作用,他们需要能够解释最新的技术和数学概念,并使其成为常规工作的一部分。许多此类项目在使用的数据、部署的数学方法或所针对的业务问题方面都存在巨大风险,可能导致管理层对不完善的模型下赌注。接受过高水平教育的数据科学家能够有效消除这些风险。
鼓励采用严格的方法,实现更出色的价值
数据科学家需要深入了解企业所面对的业务挑战。我们认为,只有在自上而下的企业流程以及应用科学对付挑战的过程中采用严格的协作式方法,才能实现数据科学的成功。
数据科学家扮演双重角色:首先,要了解企业面临的业务挑战,定义分析解决方案,自动执行或优化流程;第二,与更广泛的数据科学团队合作,使用基于发现的数据分析方法发掘创新和洞察。企业需要促进数据科学家与业务领导以及主题专家 (SME) 建立紧密联系,优化他们所创造的价值(见图 3)。
实际经验总结
诀窍是要了解最佳方法
一位数据科学家无意中听到两个统计学专家讨论一个营销难题。
统计学专家创建了一个启发式方法,对数据集执行重复循环,直到基本上对各地区的部门分配了最合理的营销处理。遗憾的是,这个过程耗时超过 18 个小时,使电脑不堪重负,而最后的结果也没有达到业务目标。
数据科学家在几个小时内就建立了一个整数规划来完成分配。这不仅保证解决方案实现最优,而且在相同的硬件上运行不到一秒钟,实现了迭代和创新,开发出更出色的促销活动。
与业务领导建立开放、协作的关系,有利于数据科学家以最佳状态开展工作,业务驱动的监管系统有助于促进关系发展,并且能够为资金分配和项目优先级划分流程提供一种结构框架。一个行之有效的流程可以帮助企业开发创新渠道,供数据科学团队加以利用。
实际经验总结
出色的数据科学既需要分析广度,也需要目标深度
雇主(和客户,如果是咨询服务)总是认为数据科学家广泛掌握各种数学和分析方法。如果数据科学家的技能不够广泛,那么就面临着对问题运用错误方法的风险。例如,一位统计学专家分析来自智能汽车的毫秒传感器数据,尝试建立一个用于模拟汽车行为的模型。统计学专家打算采用线性规则对行为建模。考虑到时间增量以毫秒为单位,所以当数据科学家向统计学专家询问目标函数和约束是什么以及问题的重要性时,统计学专家无法给出答案。
在数据科学家向统计学专家描述基于代理的模拟之后,后者表示弄明白了上述问题的含义。因为统计学专家没有任何数学方法经验,所以他请数据科学家推荐人员来帮助完成项目。
除了广泛掌握众多技能之外,数据科学家还必须至少深入了解几种通常针对企业数据生态系统和行业的技术。这种技能平衡使数据科学家成为专家,能够定义所需的分析方法,解决当前的业务问题。
在强大的数据科学团队中,通常存在一种令人感到遗憾现象,一旦他们的成功为人所知,对他们的服务要求便会迅速超过可用的智力、体力和资金资源的能力范围。结构化的优先级排序方法确保始终由业务领导做出使用决策,从而使数据科学家能够专注于业务问题。
优秀的数据科学家团队所使用的方法是从了解业务挑战开始,然后收集和准备数据,再进行建模、评估和部署。跨行业数据挖掘标准流程 (CRISPDM) 就遵循这样的步骤。虽然 CRISP-DM 可能并不完全适合每一种情况,但它能够灵活应变。这种灵活性是它的优势之一,在规划数据科学项目时,这是一个很好的起点。
最重要的是第一个步骤:了解业务挑战。掌握这方面的信息有助于确保团队解决正确的问题,这是实现数据、数学方法和技艺最佳组合的关键,要满足业务目标少不了这些条件。
虽然丰富的行业经验并不是数据科学家应具备的首要资质,但它无可替代。简单地理解行业术语是有益的,但通常仅仅因为行业经验各不相同,数据科学家所了解的数据中就可能存在细微差别。高管可以让数据科学家与业务分析人员以及主题专家建立强大的合作关系,以此帮助他们弥补在行业经验方面的不足。随着时间的推移,在每一次新挑战中深入研究数据和业务工作知识,都可以帮助这些专业人员扩展其专长。
实际经验总结
从业务问题开始,在整个流程中对其进行验证
美国一家大型保险公司的高管聘请了一批外部分析人员,帮助确定哪些支付理赔最有可能是欺诈。该公司同时分配了一个初级分析师团队,负责预测欺诈性理赔的总数。高管对结果感到失望,这可以理解;这样的解决方案对保险公司毫无价值,因为它没有提供关于如何快速识别可能的欺诈性理赔的洞察,结果是公司需要通过优化使用有限的调查资源来减少损失。
一位数据科学家通过解决相应的问题,纠正了这种情况。随后,她帮助客户走上正轨,在支付任何理赔之前检测和预防欺诈。
建立具有不同背景和技能的数据科学团队
有充分的理由认为数据科学是一项团队活动。尽管数据科学家通常是聚
光灯下的明星,但红花也需绿叶配,一个拥有专业能力的支持团队有助
于确保为创建解决方案提供所需的广泛而多样的技能(见图 4)。
实际经验总结
借鉴其他行业的想法
对于数据科学家来说,适用的行业经验非常有益。但有时,其他行业的经验对于数据科学家解决业务问题也非常有价值。例如,一位数据科学家过去使用数据包络分析方法来评估医院,后来采用了相同的方法对一家地区性财产和意外保险公司的独立代理进行评估,从而“解放”了超过 1 亿美元的净承保保费。
企业常常错误地认为数据科学家可以或者应该负责数据项目的每一个步骤。例如,数据科学家常常为数据工程师这个附加角色所累,这意味着他们必须花费有限的时间和精力来发现、组织、清理数据并进行分类。 虽然大多数数据科学家可以执行这样的任务,但我们认为这样做成本高昂,一方面因为聘用这类人才本身成本较高,另一方面因为他们完成工作的时间非常有限。
数据科学是数据驱动的,但我们发现太多的企业为实现目标所投入的时间和资源远远不够。最近一项针对数据科学专业人员的调研结果表明,数据收集、清理和组织工作消耗了他们近 80% 的时间;同时,超过四分之三的数据科学家表示这些任务最无趣乏味(见图 5)。
在决定是否雇用技术人员来扩充数据科学团队时,高管应认真考虑这些统计数据;而在目前供不应求的市场中,一个合格的数据科学家有许多其他就业选择。根据我们的经验来看,一个项目成功与否并不取决于所拥有的数据,那些尚未掌握的数据才是关键。数据科学家为了在无法直接观察的领域中综合推导出数据,付出了相当大的努力。出色的数据科学家并不会花太多时间清理数据,而是专注于智能数据转换,以便将普通数据转换为具有洞察力的数据。
寻找能够设想和实现成果的专业人员
在理解、转换、建模和评估数据之后,数据科学家必须能够支持并有效地以可视化方式传达他们从工作中获得的洞察。能否成功地沟通并帮助决策者形成一致意见,是数据科学家的软技能发挥作用的关键时刻。越来越多的数据科学团队聘用英语专业的毕业生,确保整个书面沟通流程准确无瑕疵。
如果数据可视化效果、分析流程或预计的成果不理想,那么项目就可能会失败。人们从这样的失败中总结经验教训,看到了数据可视化的重要性,使其成为最热门的数据工作职位之一,2014 年仅有 27% 的企业表示有此需求,而 2015 年这一数字上升到了 40%(见图 6)。
接受和实施数据科学计划,可以改变企业的工作方式,也可以改变客户体验企业服务的方式。然而,即使在部署和运行数据科学家所设想的模型之后(可能需要与解决方案的数据转换和数学运算一样长的步骤),也并不意味着大功告成。
数据科学团队所实现的突破往往不是最终状态。根据我们的经验,一旦小有成就,通常会开启一个不断改进和探索其他领域的迭代循环。
准备好了吗?问问您自己这些问题
数据科学家的人才争夺战日趋激烈,因为只有相对少数的候选人真正能胜任这项工作。如果想在企业内部建立或扩大强有力的数据科学团队,那么必须智慧地推进这项工作。毕竟,可能要委托这样的团队进行会对企业产生深远影响的分析工作。以下问题可以帮助您做好准备面对竞争激烈的市场,并建立能够实现期望价值的强大团队。
- 企业遇到的哪些难题和机遇因为缺乏分析能力而悬而未决?
- 评估数据科学家候选人时,您是否衡量该专业人员的软技能,包括沟通能力、科学思维和好奇心?
- 是否具备某种组织结构能够管理数据科学活动的请求并划分优先次序?
- 数据科学团队是否拥有足够的资源来满足各种任务的需求?
- 能否找到一种模式,可以解释分析项目无法通过验收或实现结果的原因?
- 负责执行这项重要工作的数据科学家提供了分析结果,您是否准备好据此采取行动?
实际经验总结
如果没有记录,就等于什么也没发生过
一位新入职的首席数据科学家来到了雇主公司,得知该公司在过去一年中完成了“超过 15 个非常成功的数据科学项目”。然而这位数据科学家很快发现,只有 2 个项目有很少的文档资料,其余 12 个项目完全没有任何记录。据称其中一个项目使该公司节省了数十亿美元,但没有任何实施记录,也没有任何针对所声称的节省的可追溯记录。更糟糕的是,当时负责该项目的数据科学家已经从该公司离职。因此,所有方法、经验教训或洞察都随之化为乌有。公司未来实现类似节省的潜在可能性也烟消云散,因为没有办法复制这样的成功。这样的知识管理战略完全行不通。企业需要确保在整个过程中完整记录实施方法。
End.
转载请注明来自36大数据(36dsj.com): 36大数据 » 掌握数据科学的艺术——如何建立具有凝聚力的团队,创造卓越的业务成果