链家冯扬:数据与机器学习在房产行业中大放异彩-36大数据
房产行业的属性呼唤更高效率的人员管理方式
对于房产行业而言,经纪人是一家企业的核心“资产”,经纪人的质量高低影响直接到服务水平和公司业绩,对于经纪人的管理效率就成了其核心竞争力。传统的多层级人工管理方式无论是在客观性、全面性上都存在效率问题。而链家的经纪人已经达到15万左右,分布在32个城市,涵盖了二手房、新房、租赁、旅居……等业务,并且随着业务的扩大在不断的增长中。因此对于经纪人管理的水平和效率有了极高的要求。
构建基于数据和机器学习的经纪人管理系统,其出发点是通过利用大数据和算法的能力,辅助管理者进行判断和决策,提升对房产经纪人的管理水平和效率。它是一个辅助系统,并不直接参与管理的执行,而是输出分析结果辅助管理者进行管理。
经纪人评估与管理系统基本结构如下图所示,由下到上依次是数据采集、离线分析、预测计算、结果应用。
数据采集的目的是尽可能全面地收集关于经纪人的所有数据,包括基本信息、职级、业绩、作业行为等等,通过整理加工成为描述经纪人的特征数据;离线分析主要是对经纪人特征数据进行分析,描述经纪人个体画像、群体特征,以及找到不同经纪人群体之间的典型差异,并通过引入人工管理经验对不同群体进行标注;预测计算则是针对不同判定和预测任务,利用机器学习方法构建模型,并针对每个经纪人个体进行预测;预测的结果输出到相应的管理系统,作为这些管理系统的输入,辅助对经纪人进行能力培养、违规行为核验和处理、人事管理、技能培训等等。
三大方面彰显基于数据和机器学习的经纪人评估与管理系统的优势
相比于传统的多层级人工管理方式,基于数据和机器学习的经纪人评估与管理系统的优势主要体现在三大方面:
1. 对于经纪人的刻画更加全面和客观
多层级人工管理的方式受管理者水平、情感、心理状态等因素影响较大。不同层级上的管理者水平不一,在标准执行和状态判定上存在比较大的差异。同一个管理者在不同的情感和不同时间上的心理状态也会影响到判断和决策。
而上述劣势正好是数据和算法能够弥补的,数据和算法对经纪人刻画的标准和能力来自于客观数据,不受情感、时间、状态的影响,机器学习算法能够对数据进行全面的搜集和分析。
2. 从数据出发,能及时发现潜在因素
多层级人工管理最容易受高层级管理者经验的限制,忽略掉一些潜在的因素,尤其面对新问题的时候更加突出。以反作弊为例,当房源信息发布的方式改变,更利于经纪人查询的时候,哪些线上的行为特征反映了经纪人正在进行房源泄露的违规操作,人工管理就需要相当长的时间来进行调研和总结,而往往在这种博弈过程中,管理者通过人工掌握信息的速度赶不上行为特征的变化。数据和机器学习的方法则可以从数据出发,及时发现潜在的异常因素,为经纪人的行为管理多了一重保障。
3. 大大提高数据处理效率
机器学习的另一个优势在于对数据的处理效率。经纪人的日常工作行为会带来很多数据的产出,这种数据生产量随着业务的扩大和人员的增加呈现非线性增长,而管理者的培养成本决定了需要提升管理效率来应对这种情况。结合数据和机器学习的方式,能节省大量的人力成本,将重复性的、规律总结性的、有明确判别标准的工作交给机器来完成,辅助管理者提升管理效率。
基于数据和机器学习的经纪人评估与管理系统的实现
从经纪人管理的角度来讲,数据和机器学习的方法主要解决两个关键问题: 一是对经纪人进行刻画,从群体上建立经纪人模型。二是对经纪人进行预测,在一定的约束条件下对经纪人潜在能力、成长路径、合规风险进行预测。前者是一个后验问题,相当于从各个方面对经纪人进行“量化”的特征表达,数据是其量化的依据,通过数据挖掘的方法来挖掘其中的最大模式和最显著特征。后者是一个先验问题,是在经纪人特征基础上针对相应的任务,利用机器学习方法训练预测、判别模型,对新的样本或未发生的事情进行预测。其中,数据是基础,机器学习是数据加工和目标实现的方法。
基于数据和机器学习的经纪人评估与管理系统的基本原理如下图所示:
对经纪人的刻画包括了静态的属性特征、状态特征、动态行为特征等,这些特征都来自于人事、财务、合同、交易、Link作业端等一系列的业务数据,对业务数据的提取和加工使得我们能够结构化地去描述每一个经纪人,形成经纪人的特征数据。特征数据的构建是利用机器学习辅助经纪人管理的基础。
针对经纪人个体数据构成的特征数据集,一方面利用无监督学习的方法对个体集合进行群体划分,采用统计学的方式进行差异性分析,结合人力管理的经验,构建具有显著特征的经纪人能力模型,形成群体画像和能力映射。
另一方面,利用有监督学习的方式,从状态判定(判定经纪人个体当前状态所属等级,并评估是否优于、符合或劣于其实际等级)、经纪人成长路径规划(预测更适合经纪人个体发展的下一步目标,以及达到这些目标需要在哪些方面提升能力)、经纪人风险预测(离职、违规等风险预测)等方面来辅助管理者决策和进行对经纪人的管理。
在应用中发现问题、解决问题
经纪人能力模型构建、经纪人离职风险预测、违规判定及风险预测是基于数据和机器学习的经纪人评估与管理系统当前的主要应用场景。其中,经纪人能力模型构建包含经纪人的服务能力、专业技能、成长潜力、创新能力、团队贡献能力等五方面能能力模型,覆盖了10万经纪人和20多个城市。经纪人离职风险预测判定的有离职风险的经纪人中有一半以上会在一个月内离职(准确率>50%),有五分之一的经纪人离职前能及时地被发现其存在离职风险(召回率>20%)。违规判定及风险预测使经纪人假录入房源行为判别(模型判别+线下核验)的效率比人工策略(策略规则判别+线下核验)提升了4倍,每个月可以自动发现上百起房源泄露事件(事后,模型判别+人工验证),目前正在进行事前风险预警的研发。
在应用过程中,最常见的问题有两个: 结果的可解释性和实际效果验证。
- 系统输出的结果适用于辅助人力资源对经纪人进行管理,尤其在违规判定等问题上需要解释结果产生的原因,而机器学习本身是一个关联性计算,其结果的可解释性随着算法模型的复杂程度的提升而降低。当前情况下,链家采用的是数据链路回溯的方式,对于存在高风险的结果,反过来追溯计算中的数据链路,引入人工的方式对链路中可疑的点进行排查和判定。
- 对于效果验证,离线状态下很容易能够针对测试集去验证模型效果,其结果用于辅助经纪人管理。当管理者根据预测结果介入干预后,实际的结果将可能受到影响(例如存在离职风险的经纪人因为管理者介入后放弃了离职的想法)。当前,链家采用的应对方式是:在正式上线前不引入管理者的干预,评估效果,正式上线后则在大时间尺度上比较其它的相关指标的变化(比如在月的时间尺度上对离职率进行同比、环比)以及在不同城市和区域间进行对比。
基于数据和机器学习的方法虽好,但也需生长的沃土
冯扬老师介绍说,基于数据和机器学习的方法的使用条件主要有两个:一是该行业的数据建设的程度,二是该行业各业务环节上的规范性程度。归根结底都是对数据的要求,前者是对数据量的要求,需要数据达到一定的规模和对业务的覆盖程度;后者是对数据质的要求,是为了能够有效进行特征量化。
链家之所以可以运用数据和机器学习的方法,一方面是经过多年的信息化,将绝大部分线下的操作、行为、数据线上化了,利用线上信息系统采集和管理经纪人的基本信息、行为数据、业绩状态、作业过程……,相对全面地收集了关于经纪人的一切数据;另一方面房产领域经过多年的发展和改造,在其中的各个环节形成了相应的行业规范和基本的评价标准。
拥抱互联网,开启信息化进程
最后,冯扬老师对链家的信息化进程进行了简单介绍。链家从2010年开始进行信息化和标准化,在初期主要是通过与第三方公司的战略合作来对房产交易进行规范化改造,将线下信息进行采集并进行数字化管理。2014年链家网正式成立,通过互联网的方式将经纪人的作业过程、房源客源管理、信息服务等全面线上化,打通了线上信息触达、线下经纪人服务、各业务环节数据采集回收的完整回路。
从2015年底开始,链家加速房产大数据进程,首先从房源信息入手,结合线上录入、采集、核验、发布等手段,建立100%真房源库,并逐渐将分散在各个业务系统中的数据进行采集、重新组织、管理、构建“房(房屋)-客(客户)-人(经纪人)”为核心的大数据网络。提升信息在该网络中的流转效率。
目前,“链家网-数据策略部”涵盖了大数据、搜索平台、NLP、策略算法等团队,负责链家房产大数据建设,同时结合数据挖掘、机器学习等手段,以数据产品、策略产品、数据及能力输出的方式服务于房产交易中的买方、卖方以及经纪人,同时依托该大数据体系促进房产交易行业的规范化进程。
End.
转载请注明来自36大数据(36dsj.com): 36大数据 » 链家冯扬:数据与机器学习在房产行业中大放异彩