采用机器学习和算法处理，iPIN利用网上的过剩信息揭露公司的薪资，升职空间等用人信息#36氪开放日广州站#

36氪 • 11年前扫码分享

信息爆炸”这个说法早已烂俗，不过它依然能够准确的描述我们所处的这个时代。在上一个十年，利用关键词组织信息的Google成为了最大的赢家之一，然而目前这种组织信息的方式则显出了自己的局限性。随意在Google上搜索一个词，便可以获得上千万条信息，完全超过了人类的处理能力，用户往往只会浏览前三页，并且其中还包含了诸多虚假或不相关的信息，不仅过剩的同类信息被浪费，并且处理效率低下。显然，获取信息的方式来到了需要被再次革新的时候。

基于这样的原因，专攻数据挖掘的技术团队 iPIN 决定利用机器学习和算法处理，将网上过剩的数据资源用来揭示中国各家公司的“内幕”，包括人员结构，各职位的薪酬情况，以及升职速度等。

iPIN是一个纯技术的团队，两位创始人皆来自学界。杨洋是哈尔滨工业大学管理学院的副研究员，曾在美国天普大学获得信息学博士，曾任职YY语音全球化项目的负责人；潘嵘是中山大学信息学院副教授，曾与队友一并获得美国计算机协会（ACM）举办的数据挖掘大赛KDD Cup的全部三项的世界冠军。

iPIN利用从网络的各个角落抓取的公开数据，利用机器学习和建模等技术，将数据进行处理后，生成了各公司用人情况的数据。这使得原本用户需要在搜索引擎翻几百页，然后进行总结，概况，辨别真伪才能获得的信息，只需要进行一次搜索就能得到，目前这个数据库包括上百万家中国公司的用人情况。

数据库中的公司信息主要有四个维度：概况、薪酬、人员构成，以及工作稳定性。

首先iPIN会根据企业的特点为其打上“偏好精英”“重视研发”等标签，并将其薪酬，稳定性，和行业前景进行评分，让用户对该公司有一个大体的了解。

然后则是iPIN的核心企业薪酬信息。iPIN的资料库中有公司每个职位对应薪水的上下限和平均值，甚至包括了一般从一个职位升迁到对应的职位所需要的时间，以及在该职位可以获得的薪金，从而描述该公司的升职空间。

再者，iPIN还会展示该公司的人员构成比例，包括：男女比例、学历所占比、本省员工的比例、最多的毕业院校和专业等。

并且，iPIN会揭示员工的平均留存时间和离职去向。用户可以了解到在该公司工作的稳定性，以及跳槽的发展空间。

如果求职者在几家公司之间犹疑不决则可以使用“对比”功能：对比多家公司的薪水，工作稳定性，男女比例等。帮助用户在犹疑之际做出判断。iPIN还会在近期就薪酬待遇，员工评价等上线公司排行榜，供用户参考。（下图从左到右分别是腾讯、百度、阿里巴巴三家企业在工程技术职位的薪金对比）

iPIN的团队表示未来准备为企业用户提供增值服务，包括更精细化的数据分析等。比如下图解释了阿里巴巴和腾讯两家公司的各部门人员比例以及各部门薪酬与同类公司薪酬的比较情况。我们可以发现，iPIN的数据显示，销售部门是阿里巴巴的大头，不仅人员众多，薪酬指数也达到了同类公司的95%以上；腾讯则极为注重财务，其财务部门的薪酬指数远高于同类公司薪金的95%。（薪酬指数是背景完全相同的人，在不同公司的相同职位所获得薪酬情况）

iPIN的出现抓住的是传统招聘网站的三个大问题：首先是效率低下。传统招聘网站上的招聘公司信息冗杂，往往花五六分钟只能获得一段有效信息；其次是薪酬不明。只要上过招聘网站的人都会对“薪酬面议”四个字印象深刻。似乎招聘公司都不希望公布自己的真实薪酬，这样给求职者的选择带来极大的困难；三是不了解企业文化和氛围。招聘公司的发展空间，企业文化，等也是求职者关心的重点，然而这一切都无法从传统招聘网站上获得。

其中企业薪酬更是求职者最大的痛点。针对这个点推出的求职信息网站还有分智网和“ 曝工资 ”。不同的是这两家公司采取的都是用户上传工资数据和对公司的评价，然后进行人工审核，如果通过，便计入该公司该职位的工资数据。而iPIN则是利用网络上的海量数据，将资料的辨别和对公司的评价交由机器完成。比起前两者，iPIN不仅更节约人力成本，在数据规模上也有更大的优势。

然而这便引出了一个问题，通过数据处理获得的信息到底有多高的可信度？iPIN的创始人杨洋举了两个信息源的例子：微博的个人资料和58同城的简历库。微博上的公司信息是许多人寻求关注和发布信息的基础，特别是加V的微博，资料的真实性非常高；而58同城的简历库中则包含了求职者有关自己每段工作经历的薪酬情况，亦有较高的真实性。同时，iPIN的团队曾将算法生成的一些大公司的数据和他们所公开的职位和人员结构等信息对比，并无太大差异。

[ 36氪原创文章，作者: 暮山]