CCF大数据与计算智能大赛想用大数据分析谁偷了电,还想干这十件事
国家电网应该一直为窃电操碎了心,因为它在努力寻求大数据方案来解决这个问题。
9月24日,在第四届CCF大数据与计算智能大赛启动仪式上,国家电网发布了与此相关的两道赛题。
国家电网公司称,希望通过大数据分析技术,科学的开展防窃电监测分析,以提高反窃电工作效率,降低窃电行为分析的时间及成本。同时,国家电网公司希望通过大数据分析技术,科学的开展电力敏感客户分析,以准确地识别敏感客户,并量化敏感程度,进而支撑有针对性的精细化客户服务策略。
除了国家电网希望借此机会解决上述难题,搜狗、蚂蚁金服、AdMaster、驭势科技、中国联通研究院等多家公司和机构还发布了另外9道赛题,涉及搜索广告、O2O营销、舆情分析、监控识别、计算广告、无人驾驶、市场预测、LBS营销、气候预测等领域。
雷锋网(搜索“雷锋网”公众号关注)了解到,这11道赛题公布的奖金池累积已达到55万人民币,而且按照往届大赛的经验,参加大赛的不仅有广大学生党,还有企业及社会个人、团体专门组队参加。
赛题发布方祭出真实数据
据主办方中国计算机学会(CCF)及发布赛题的企业介绍,有别于同类一些比赛提供的标准数据库的数据,赛题提供的大量真实数据可能是吸引众多参赛选手的原因之一。
国家电网的代表表示,他们发布的赛题来源于以下几个方面:
第一,将提供国家电网供电区域的某一个区域的用户日电量信息;第二,经过业务研判以后的异常的用电信息,这些用电信息经过专业人员分析,确实异常。
经过异常用户信息,参赛者可以根据这些数据,发现窃电用户的行为特征,形成窃电用户的画像,准确识别窃电用户,对国家电网而言,提高窃电的监测效率,降低窃电损失。
搜狗的代表则称,
我们提供了一个10万用户量级查询的行为,这是10万用户搜索在线下通过调研问卷各种方式得到真实性别、年龄、学历等数据,我们希望拿出一半数据作为训练题,另外一半作为测试题,来搜索行为来识别一个人年龄性别和学历。
中国联通也表示,他们提供了3万个用户的上网的详单记录,也就是3个月记录上网的行为记录和通话的话单记录,同时有1万个商户的位置数据和活动行为数据。除了原始数据,也在原始数据的基础上提供了中间的过程数据。
当然,上述赛题发布商也强调,上述信息均经过了脱敏处理。
或是一场“练兵”和“人才招聘”
这次大赛的主要目的是什么?
雷锋网编辑注意到,此次启动仪式上,上海教育部的专家以及一些高校代表均站台捧场,不难看出,许多高校想借此机会“练兵”。
对于发布赛题的企业而言,AdMaster的代表就直言,希望通过赛题,真正解决企业的一些问题。他称:
举一个我们公司的案例――怎样识别虚假流量,这个赛题的方案如果做得好,可以直接运用到我们公司的商业场景,也可以应用在整个广告行业。它的好处有几点,第一,对参赛选手而言,不管是学生还是组织,还是其他参赛人员,可以通过各种知识来把各种数据直接到应用到行业中,我们不止是提供奖金,更大的是为整个行业做出了很大的贡献,第二,如果是学生,还可以给他offer。
CCF专家委员会秘书长程学旗现场以案例做起了“广告”。他告诉雷锋网编辑:
第一届大赛一等奖获得者上海交大的团队,后来获奖之后,没有毕业,直接去创业了,当然这还是交大的校长给的政策,创业期间可以以暂时按照休学处理,现在他们快拿到第二轮融资了。
第二届,有一个团队参加了海量科技组织的赛题,当时的赛题是“网络热点事件的快速发现”,那个方法做完之后,海量科技马上用了这个成果,后来在天津事件发生时,用的算法比所有其他的系统业务更精准,更及时。
链接――究竟有哪些赛题?
1.监控场景下的行人精细化识别
行人属性精细化识别是智能监控技术的重要组成部分。本赛题提供监控场景下多张带有标注信息的行人图像,要求参赛者在定位(头部、上身、下身、脚、帽子、包)的基础上研究行人精细化识别算法,自动识别出行人图像中行人的属性特征。标注的行人属性包括性别、头发长度、上下身衣着、鞋子、包的种类和颜色,并提供图像中行人头部、上身、下身、脚、帽子、包位置的标注。
2.Human or Robot?
与传统的电视广告、户外广告采买相比,流量作弊一直以来被看作互联网广告特有的弊病。随着网络数据技术的发展进步,流量作弊也呈现出规模化、机器化、产业化的趋势。方式包括通过人工、机器制造虚假流量,或者通过技术手段窃取他人流量,偷梁换柱。反作弊需要强大的数据支撑,包括丰富的数据存储,大量的项目积累和经验积累,广告不同环节的数据触及等。该题目需要参赛者基于IP,cookie,设备ID,访问时间序列,UA信息分布等行为属性来建立一个模型,区分正常用户曝光记录与作弊行为记录,并进行标记。
3.基于视角的领域情感分析
情感分析是网络舆情分析中必不可少的技术,基于视角的领域情感分析更是情感分析应用于特定领域的关键技术。在对句子进行情感分析时,站在不同的视角,同一个句子的情感倾向判断结果将有所差别。本赛题意在情感分析任务中,站在数据使用者的角度进行特定的情感分析,使数据分析的结果更具可用性。本赛题可以细分为“视角抽取”与“基于视角的情感分析”两部分。
4.鸡肋还是实惠?O2O优惠券使用预测
以优惠券盘活老用户或吸引新客户进店消费是O2O的一种重要营销方式。然而随机投放的优惠券对多数用户造成无意义的干扰。对商家而言,滥发的优惠券可能降低品牌声誉,同时难以估算营销成本。
个性化投放是提高优惠券核销率的重要技术,它可以让具有一定偏好的消费者得到真正的实惠,同时赋予商家更强的营销能力。本次大赛为参赛选手提供了O2O场景相关的丰富数据,希望参赛选手通过分析建模,精准预测用户是否会在规定时间内使用相应优惠券。
5.大数据精准营销中搜狗用户画像挖掘
在现代广告投放系统中,多层级成体系的用户画像构建算法是实现精准广告投放的基础技术之一。其中,基于人口属性的广告定向技术是普遍适用于品牌展示广告和精准竞价广告的关键性技术。人口属性包括自然人的性别、年龄、学历等基本属性。
在搜索竞价广告系统中,用户通过在搜索引擎输入具体的查询词来获取相关信息。因此,用户的历史查询词与用户的基本属性及潜在需求有密切的关系。
6.自动驾驶场景中的交通标志识别
交通标志的检测是一项非常有挑战的任务,精确的检测对后续识别,辅助定位导航起着决定性的作用。交通标志的种类众多,大小、角度不依,本身就很难做到精确检测,并且在真实的行车环境中,受到天气、光照等因素的影响,使得交通标志的检测更加困难。我们将提供完全真实场景下的图片数据用于竞赛训练和测试,使得开发出来的算法能够实际应用在自动驾驶中。
7.客户用电异常行为分析
为进一步提高社会用电的安全,保障发电企业、电网企业和用电客户的正常利益,尽可能的杜绝偷窃电行为的发生。本赛题基于国家电网公司提供的关于用户用电量、电能表停走、电流失流、计量们打开灯计量异常情况、窃电行为等相关数据,以及经过现场电工人员现场确认的窃电用户清单,希望参赛者利用大数据分析算法与技术,发现窃电用户的行为特征,形成窃电用户行为画像,准确识别窃电用户,以帮助系统更快速、准确地识别窃电用户,提高窃电监测效率,降低窃电损失。
8.客户画像
经过多年的发展与沉淀,目前国家电网积累了全网4亿多客户档案数据和海量供电服务信息,以及公司营销、电网生产等数据,如何从海量的用户数据中发掘对停电事件、供电稳定相关事件具有敏感性的客户群体,并对客户停电敏感度进行量化排名对于电网企业的客户满意度、电力服务水平、用电客户黏性的提升以及供电抢修工作的路线优化都有着至关重要的作用。
参赛者需要以电力用户的95598工单数据、供电抢修服务数据、停电信息数据为基础,结合对受理工单文本内容的分析挖掘,建立客户停电敏感度模型,对客户对于停电事件的敏感程度进行量化分析,确定用户对停电事件是否敏感。
9.基于多源数据的青藏高原湖泊面积
本赛题希望通过研究青藏高原湖泊面积变化的多种影响因素,构建青藏高原湖泊面积预测模型。
如通过研究2000年-2015年期间的降水总量、温度变化趋势、地形起伏度、海拔、2000年、2005年和2010年青藏高原湖泊面积和分布数据,分析各个因素对湖泊面积变化的影响,并对2015年的湖泊面积进行预测。
10.农产品价格预测分析
价格预测是大数据的精华所在,通过大量的历史数据分析,预测未来的价格走势,为决策者提供更有力的数据支持。初赛阶段,参赛者只需分析提供的价格历史数据,对要求预测的农产品接下来固定时间的价格进行预测。 复赛中,要求参赛者尽可能多的使用与价格有影响的其他数据以提高预测的准确率,例如:天气数据,详情将在复赛开始前在本网站公布。
11.依据用户轨迹的商户精准营销
精准营销是互联网营销和广告营销的新方向,如何利用已有的用户画像对用户进行分类,并针对不同分类进行业务推荐,特别是在用户身处特定的地点、商户,如何根据用户画像进行商户和用户的匹配,并将相应的优惠和广告信息通过不同渠道进行推送。
目前的主要解决问题能力有两点:一是用户实时位置和商户坐落位置的匹配,二是用户画像和商户店铺的匹配。
本次赛题需要参赛者根据商户位置及分类数据、用户标签画像数据提取用户标签和商户分类的关联关系,然后根据用户在某一段时间内的位置数据,判断用户进入该商户地位范围300米内(经纬度1秒越30米),则对用户推送符合该用户画像的商户位置和其他优惠信息。