Kaggle模式的中国尝试者:DataCastle让数据科学家同台竞技
机器学习、人工智能和大数据分析等炙手可热的概念,似乎只是大公司的专利。因此帮助中小企业解决数据分析需求成了一个热门的方向。不同于提供第三方数据分析服务,DataCastle走Kaggle的数据分析众包模式,组织国内的数据科学家以竞赛的方式提供数据分析服务。有数据分析难题的公司可以通过网络将数据和问题提交给DataCastle,任何数据科学家都可以提交问题解决方案,DataCastle会对每个解决方案的有效性进行排名。
DataCastle运营经理王荀表示,现在DataCastle还处于提高知名度的阶段。从2014年11月到现在DataCastle共承办了5场数据比赛,包括中国计算机学会 CCF 主办的第一届中国大数据竞赛。DataCastle上至少参加过一次比赛的参赛者已经超过7千多名。目前,DataCastle正在联系更多的计算机机构提供有趣的题目,从而吸引更多的参赛者进入DataCastle平台。
国内做Kaggle模式的我看到的只有DataCastle这一家。阿里和百度类似的竞赛平台主要侧重自身需求的挖掘,比如百度承办的 CIKM 2014 CUP 就是百度查询词意图的识别,阿里天池平台的资金流入流出预测竞赛是针对蚂蚁金服的需求。
一个数据竞赛平台发展起来需要一个良性循环:企业提供有趣的题目以及奖金;优秀的数据科学家被有趣的题目(或者奖金)吸引参加比赛;更多企业被平台上数据科学家的学识吸引,将自己的需求作为题目提供出去;更多的数据科学家被吸引过来。
国内的中小企业有数据分析需求会因为使用门槛太高(语言就是一个大问题),从而不会去国外的Kaggle平台。对它们来说,选择国内数据竞赛平台的动力是比较足的。怎么吸引"高逼格"的优秀数据科学家是良性循环能够建立起来的关键。目前DataCastle中文界面这个优势对英文熟练的优秀数据科学家并没有太多的吸引力。怎么捕捉到国内优秀数据科学家的需求,从而吸引他们参与竞赛,需要国内Kaggle模式践行者思考。
原创文章,作者:goto