KDD CUP 2019 实录:野心尽露的数据挖掘「奥林匹克」
雷锋网 (公众号:雷锋网) AI 开发者按: KDD 2019 至今迈入第三天,在经历了首日 Tutorial Day 、次日 Workshop Day 的知识轰炸以及精彩的 Keynote 演讲后,我们终于迎来了大会的高潮时刻——被誉为数据挖掘领域「奥运会」的 KDD CUP。
今年的特别之处,在于 KDD CUP 2019 拥有了专属的完整、独立议程,不再感觉只是大会的附属。同时,KDD CUP 2019 也破天荒首次设立三个赛道,供世界数据挖掘界的顶尖专家、学者、工程师、学生等前来参赛。而赛事结果也让人感到惊喜——三个赛道的冠军悉数被华人面孔拿下。
KDD CUP 有了属于自己的 DAY
AI 开发者从官网获取的最新议程显示,作为 KDD 2019 “Main Conference Day”的重头戏之一,KDD CUP DAY与今年的应用数据科学 Invited Talks和Research Track 论文 Oral 两大议程重叠,举行时长几乎横跨全日。
揉碎了细看,KDD CUP DAY 如今拥有主席致辞、颁奖仪式、大会演讲、Spotlight、Panel 等一系列完整的闭环议程,从中也反映了 KDD CUP 在整个 KDD 大会中的分量。按此往下发展,KDD CUP 在未来完全拥有进一步自主独立的可能(搞事情!)。
KDD CUP DAY 完整议程
今年的 KDD CUP 一共获得来自 39 个国家 230 所学术/研究机构一共 2800 多支队伍的注册。其中 1200 支的活跃队伍(总数超过 5000 人)提交了约 17000 份解决方案。
与这些“热闹”的数据相对的是,大会现场则要“冷静”很多。也许是宣传力度有所欠缺,再加上部分获胜队伍美签未能成功批下,所以当 AI 开发者记者今早来到大会现场时,人数要比想象中的少一些。
今年的KDD CUP 赛事共有三位联合主席,他们是 Taposh Dutta-Roy(下图右)、Wenjun Zhou(下图左)以及 Iryna Skrypnyk(下图中),分别供职于 Kaiser Permanente (KP)、田纳西大学和Pfizer 。
KDD CUP 这 20 年
KDD CUP DAY 的一开始是组委会致辞环节。
首先打头阵的是 Iryna Skrypnyk,她深情回顾了 KDD CUP 自 1997 年举办以来的赛题,以及这些赛题是如何与当时的社会风潮紧密结合的。她表示,自己亲身参加了第一届 KDD CUP 竞赛,至今依然感谢 KDD CUP 带给她的指导意义。
为了让读者更清晰地看到 KDD CUP 的历年赛题变化,AI 开发者特地做了完整梳理:
forecasting of air quality indices (2018),
highway tollgates traffic flow prediction (2017),
measuring impact of research institutions via prediction of scientific research papers acceptance rates and citations (2016),
prediction of course drop-outs for college students (2015),
prediction of fulfilled requests on educational materials made by school teachers to improve funding outcomes (2014),
resolving author-name ambiguity in scientific publications (2013),
prediction of followers and click-through rate to improve user engagement with the online content in social networks (2012),
identification of user tastes in music for Yahoo! music recommendation (2011),
prediction of student’s performance for improvements in education quality (2010),
prediction of customer relationship for personalization in CRM (2009),
early breast cancer detection from medical imaging (2008),
user rating prediction to improve Netflix movie recommendation (2007),
pulmonary embolism detection from medical imaging data (2006),
categorization of search queries from an internet search engine (2005),
plus protein homology prediction in particle physics (2004),
prediction of paper citations and building citations graph for arXive (2003),
detect experimental evidence of gene expression from microbiology research papers for Flybase using their gene-expression curation criteria (2002),
prediction of molecular bioactivity and plus protein locale for drug design (2001),
clickstream analysis for online retailer web-site (2000),
prediction of attack type in network intrusion detection (1999),
identify response to the mailing in direct marketing for profit optimization (1998, 1997)
此外,她也分享了赛事在经过这 20 多年发展后所经历的变化,其中包括:
-
面临的问题复杂化
-
关注焦点从机器学习转向特征工程笔记
-
数据工程开始占据主导地位
-
鼓励开源代码
-
涌现新的应用领域
-
防泄漏成重要议题
-
更复杂的评分功能
-
采用更多比赛平台
-
代码提交问题
紧接着发言的 Taposh Dutta-Roy,先用一张 PPT 提出一个很有意思的问题:最早通过竞赛方式组织人群解决问题的赛事是哪个?随后公布的答案显示,是英国经度委员会于 1714 年组织的“测定海上船只经度”赛事。
他想借此说明举办赛事的价值与意义。
他补充,赛事如今已深刻影响着业内的个体、企业与研究机构。
首设 3 个赛道
Wenjun Zhou 在接下来的致辞中,代表组委会分享了今年在选择赛题上的考量。分享中她一再强调,如何让赛事在具有挑战性之余,同时在可控范围之内,是本次组委会考虑得最多的事情。
最终组委会确立了 Regular ML、Auto-ML、Humanity RL 三个赛道,分别由百度、第四范式以及 IBM 承办。
百度以「智能出行」为主题布置了两大任务,分别为「场景感知的多模态出行推荐」与「开放应用挑战赛」。
AutoML 的参赛者需要利用时序关系数据,设计一个能够自主(无人为干预)实现监督学习的 AutoML 计算机程序。
Humanity RL 赛道的参赛者需要为顺序决策制定任务开发出一套高性能工具,从而形成可能影响撒哈拉以南非洲疟疾政策的解决方案。
此外,她也以分享了组委会最终决定设立三个赛道的原因。如下图所示,排在第一位的原因,是提案数的暴增,由此可见 KDD CUP 对于业内企业的吸引力。其中强化学习赛道为 KDD CUP 首创,值得一提的是,上午大会环节专门安排了一场与强化学习相关的主题演讲,可见强化学习在当下的受欢迎程度。
接下来公布的数据从侧面反映了 KDD CUP 逐年壮大的趋势,其中今年的奖金池整体超过了 10 万美金。
奖金池与参赛队伍数量都是历年之最!
尴尬却不失礼貌的颁奖环节
KDD CUP 2019 所有赛道的结果早已在官网公布,今早的颁奖环节,更多的是强调一种仪式感,让参赛者们也能拥有属于自己的舞台。
然而令人尴尬的是,由于很多参赛者因为这个或那个原因未能到场(美签未被批是主要原因),导致相关环节只能匆匆结束。
不过颁奖环节依然有值得一提内容,比如三个赛道的冠军悉数被华人队伍拿下:
-
Regular ML 赛道(任务一):
Shiwen Cui, Changhua Meng, Can Yi, Weiqiang Wang, Xing Zhao, Long Guo(蚂蚁金服)
* Regular ML 赛道完整获奖名单:https://www.kdd.org/kdd2019/docs/Winners_Regular_Baidu.pdf
-
Auto-ML 赛道:
Zhipeng Luo(深兰科技),Jianqiang Huang(北京大学),Mingjian Chen,Bohang Zheng(深兰科技)
* Auto-ML 赛道完整获奖名单:https://www.kdd.org/kdd2019/docs/Winners_AutoML_4Paradigm.pdf
-
Humanity RL 赛道:
Zi-Kuan Huang, Jing-Jing Xiao, Hung-Yu Kao, 国立成功大学
* Humanity RL 赛道完整获奖名单:https://www.kdd.org/kdd2019/docs/Winners_Humanity_RL_IBM.pdf
他们也大多都有代表到场领奖:
Auto-ML 赛道的冠军队伍
Regular ML 赛道的冠军队伍
而作为百度承办的 Regular ML 赛道颁奖人代表,熊辉教授分享了一个有意思的数据,那就是百度今年提供的赛事奖金池为 KDD CUP 的历年之最,其中任务一的优胜队伍将能获得高达 10 000 美金的奖金!
后记
从单独设立 KDD CUP DAY、突破记录的参赛队伍与奖金池来看,KDD CUP 的影响力早已毋庸置疑。然而首创三赛道、首设强化学习赛道,也让我们看到今年的组委会并未固步自封,而是愿意不断挑战自己,在为业界解决系列重要问题之余,也树立起了新的数据科学赛事标杆。
这让人忍不住期待,拥有了自己独立议程后的 KDD CUP,往后又会给我们带来哪些惊喜。
雷锋网 AI 开发者 雷锋网
。