从数据竞赛到专业第三方数据平台,科赛是如何高效提升「数据工作者」价值的?
雷锋网 AI 研习社按:高新技术人才在数据智能方向上的招募和培养,是互联网企业所面临的最主要的问题之一,而关键人才的招募和培养,有着很高的试错成本。数据人才永远是招聘市场上最稀缺、抢手的岗位之一,入职后也会频繁面临猎头抛出的橄榄枝。在这种激烈的人才争夺的环境下,能在求职者中发掘真正认可自身事业的优秀专业人才,就成为了企业招聘工作的重点。
近年来,国内外的科技公司逐渐采用数据竞赛的形式来招聘、筛选、培养人才。数据竞赛能够把前沿问题开放出来,包括背景问题、相关数据、评价标准、赛事奖金。对于喜欢挑战,有好奇心,有自信的专业数据人才来说,数据竞赛要比宣讲会、招聘广告有更强的吸引力。
自 2014 年起,国内涌现出多家数据竞赛平台,如阿里云旗下的天池,中国科学院孵化出的 DataFountain,成都电子科技大学创立的 DataCastle 等。尤其是去年谷歌云收购世界首屈一指的数据科学、机器学习开发者社区和竞赛平台 Kaggle 之后,大数据竞赛平台呈现出一片欣欣向荣的景象。然而,数据竞赛有多大的稳定持续的市场空间,行业前景如何,以及如何实现商业变现,是所有数据竞赛平台的组织者和运营者所要面对的问题。
从 2014 年上海交通大学的一间宿舍开始,范向伟创建了拥有赛事报名、方案提交、活动管理、团队管理等简单功能的早期网站 —— 这便是科赛网( https://www.kesci.com/ )的前身。4 年过后,科赛网目前已经成为国内顶尖的第三方专业数据平台,意在通过线上社区与在线数据分析工具与线上社区结合打造高质量的数据人才平台,并采用数据算法比赛、训练营、培训及企业咨询等完整解决方案对接企业需求,不断释放数据和人才的价值。雷锋网 AI 研习社采访到了科赛网 CEO 范向伟,让他来为开发者们解读科赛网的发展现状,数据竞赛平台遇到的困境以及未来的发展方向。
以下是雷锋网 (公众号:雷锋网) 的采访内容:
1.您本科学的是会计专业,曾经做过一年的金融分析,为什么后来会选择去上海交通大学学习统计学并创办科赛网?
我本科学的是财务管理,毕业的第一份工作是在法国最大的私人银行之一、罗斯柴尔德家族银行从事资产管理的工作,用资产管理的方法论分析了我自己的兴趣、志向和当前的环境之后,我决定离开金融行业,转专业到数学和统计的方向,由于基础知识差太多,用了一整年在图书馆自习补课。
我在金融行业的时候就接触了很多风险投资领域的项目,对于创业和投资有了基本的认识,我觉得相比投资,自己对于创业有更大的兴趣。
创业最开始是从自己的痛点出发,我在数学系学习的过程中,发现理论联系实际其实很不容易,只有极少数人能够把学到的知识真正应用于生活和工作中,尤其在数学这样抽象的学科,就更困难了。于是我萌生出一个想法,希望能够去帮助他人在实践中学习知识、应用知识、积累知识。由于我的专业是数据相关,所以将起步的切入点对准了数据工作者,也选择了数据竞赛这样一个脱胎于数学教学的运营模式。
我发现「数据工作者」的职能非常重要,但却也很小众,甚至在许多机构中是被边缘化的。国内当时还并没有一个公司或产品,以提高数据工作者的价值为目标去开展工作。
竞赛平台这个模式的意义是整合资源,让用户能够通过接触真实问题、真实数据,得到相应激励,找到对口合作伙伴,更好的实践与成长。
同时,为了帮助用户提升数据分析的工作效率和协同痛点,我们经过两年的研发推出了在云端管理底层基础架构,统一数据资源、算力资源、算法框架、项目文件的在线分析工具 K-Lab 。
2.近期,科赛加入了百度 AI 加速器,请问未来科赛在人才、数据、竞赛等方面会跟百度有哪些合作?
百度作为国内 AI 领域的领导企业,在 AI 领域有很多的先进的经验积累和技术积累,这些对于科赛网的用户来说,都是宝贵的资源,可以帮助他们实现更快速、精准的成长。
科赛和百度 AI 事业部会深度合作,举办一系列的 AI 应用大赛与AI创新大赛。
科赛已经和百度完成了一次赛事合作,即基于 PaddlePaddle 的深度学习框架和爱奇艺的综艺视频数据,希望找到能够自动识别视频中精彩片段的深度学习算法模型。在比赛过程中,冠军选手提交的算法已经达到了百度AI部门的最好成绩,提出这一问题的百度 AI 科学家也很惊喜,认为行业中还有很多有挑战、有价值的 AI 问题值得用竞赛的方式来探索和解决。
3.很多数据竞赛往往会在开发实用解决方案方面做出牺牲,那在为企业客户创造价值和为参赛者提供价值方面,科赛是如何平衡的?
为客户创造价值和为参赛者提供价值并不矛盾对立,二者同在数据价值创造上的目标和要求是一致的。
举几个例子:
我们和联通合作,预测哪些用户会在短期内置换手机,从而可以进行手机套餐的精准营销,最后方案的预测准确率提高了 15%。
我们和携程合作,基于航班时刻表数据和机场天气数据,进行航班晚点的预测分析,这个问题是携程的 CEO 梁建章提出的老大难问题,在科赛网,一个月内就得到了比过去方案好出 12% 的预测效果,目前优秀选手的方案已经应用在了携程的系统之中,在特定航线之中进行晚点预判和预报。作为上海最大的互联网公司,携程已经和我们合作了六个数据分析项目,100% 都取得了超过企业内部的效果,平均每个项目的 ROI 是 200 万。
从培训角度,为了帮助我们的平台用户学习成长,我们已经和好未来、百度、云丛、拍拍贷合作,举办过涵盖教育、金融、视频、人脸、金融等垂直行业的在线人才训练营,把行业里面最好的专家、最好的问题、最好的案例拿出来给到我们社区的用户,让学习围绕着问题和需求展开。
从项目角度,为了帮助我们的平台用户积累项目经验,科赛已经开放了 50 个行业真实问题,积累了 2000 多个数据项目案例,这些问题的数据规模和实用性,比许多高校所能够提供的资源都丰富。
最后从社会协作能力角度来说,科赛吸引了 3 万名数据人才的加入,这些人才的总体质量非常高,他们一共形成过 15000 个项目团队,许多团队的典型配置就是学长带学弟,在职用户带高校用户,这种高质量的项目互动经验对于一个人的成长是隐藏但关键的的宝贵资产。
4.目前,各平台现阶段的商业模式仍在摸索,对于科赛来讲有哪些商业变现的方式?
科赛的商业模式面向企业级服务,包括了咨询服务和软件产品,数据项目众包和数据人才招聘是我们目前主要的营收来源。
在咨询服务方面,为了服务像平安、联通、华为、招行这样的一线客户,科赛团队安排了精兵强将进行赛事项目的筹备和运营,科赛的赛事运营团队包括毕业于哥大、CMU、华威等知名院校的专业数据分析人才,从赛题筹备、数据清洗、规则制定、赛事宣传、选手答疑、作品分析、总结汇报的每一个环节都深度参与、确保组织工作的准确无误。
软件产品即 K-Lab,面向需要进行数据分析团队管理、数据分析教育及协作等工作的机构,以高校、培训机构、企业类客户为主。
5.除了商业变现,数据竞赛行业还面临哪些挑战?
主要的挑战就是可持续发展和商业化的平衡。
6.与 DataCastle、阿里云天池、DataFountain 等国内数据竞赛平台相比,科赛的优势和特点在哪里?
优势在于团队和产品。团队是所有产品和服务的出发点,我们很重视团队建设。科赛团队的大部分成员是知名院校和知名企业出来的专业人才,和科赛合作过的客户都会对我们团队的专业性留下深刻印象,所以也很愿意为我们推荐新的客户,再次与我们合作。
企业客户和开发者社区了解科赛主要是因为数据比赛,但实际上科赛大部分的人员投入是在产品研发上,科赛的工程师团队大多来自BAT的核心研发部门。
我们的核心产品 K-Lab,整合了 Docker、Kubernetes、Jupyter 等最新技术,对数据分析与机器学习的多人协作场景进行了深度优化。
K-Lab 对于科赛的数据竞赛业务是极大的赋能,大幅提高了赛事组织的效率和效果。数据竞赛是一种开放式的数据分析项目,成百上千的团队会从不同的角度对数据进行处理加工,并基于分析结果展开竞争。数据赛事项目出现的常见问题,比如数据质量、测评方式,都会对比赛选手和主办方造成很大的沟通解决成本,如果问题无法得到及时解决,不仅会影响赛事选拔人才、吸收创意的目标,也会在技术社区中留下主办方不专业的印象。
通过 K-Lab 的协作平台,数据分析项目所需要的元素都储存在统一的环境中,赛事筹备和组织的效率有了显著提升,赛事过程中发现的细节问题,也可以得到及时调整。
优秀的算法方案,除了更高的准确度之外,还需要有良好的运行效率、可拓展性、可解释性等等,这些具体性质都需要通过代码复现来确认。参赛团队的模型成果、分析结果可在 K-Lab 中得到完整复现,便于主办方筛选人才,交流算法。
7.企业以及政府推动数据公开的力度越来越大,开放公共数据逐渐成为趋势,这会对数据竞赛和数据分析行业带来哪些改变?
数据越来越多对大家来说都是好事,可以用的数据资源、算力资源都变多了,对于数据分析行业来说会是一个重要推动。
8.数据竞赛行业的发展趋势是怎样的?未来究竟有多大的市场空间?
数据竞赛的需求一直都会存在,但市场空间并不大,因为没有什么门槛和壁垒,如果没有很强的专业度和附加值,企业也愿意让 HR 和市场团队自己来办比赛。我们相信企业级的数据服务、人才服务的市场是会一直增加的,因为数据在增加,人才的潜力也在增加,赋能人才、激活数据,这个对于企业来说就是很大的价值,相比竞赛的模式本身,这更多是产品层面、咨询层面的服务。
9.关于科赛网的未来,您是如何规划的?
未来的市场机会很广阔,市场格局的变化也会很快,我们认为只要积累了核心能力,未来就会有机会去承担更大的责任,这个具体的机会窗口往往是很难预判的。科赛的核心能力就是做好产品和服务,然后用这个能力去帮助中国新一代的数据工作者一起成长,伴随中国最优秀的企业完成数据化和智能化的升级。
相关文章:
一个实例告诉你:Kaggle 数据竞赛都有哪些套路
加入 Kaggle 大数据竞赛,总共分几步?
。