一场有啤酒、思想、脑洞、科技、竞技的狂欢
日前,由DoraHacks主办的第二届Hackthon(黑客马拉松)DataHack 数据 科技 Hackathon 落下帷幕。
近年以来, 随着数据量日益增长,越来越多的企业意识到需要对大数据资产进行价值挖掘,借助数据驱动管理和业务。另外,数据采集和处理的多样化,让数据驱动可以作用于整个企业的管理和业务流程。从而降低企业的运营成本、提高工作效率、增强科学决策能力。
6月17日DoraHacks聚集了70名来自全国各地的Hacker、数据高手、AI大咖、最有 创业 产品经理、行业专家,涉及 金融 机构,银行,保险,地产,消费及各行业。在24小时内,Hacker们现场组队,解决行业中的数据问题,将数据类的创意落地为产品。
本届比赛冠军陈曦说,这是他第二次参赛,感觉和去年参赛时大不相同。他认为过去的两次Hackthon,单从主题上讲区别就很大,第一次的主题是 Fintech Hackthon, 强调的是技术在金融领域的运用;第二次的主题是 Data Hackthon, 强调的是数据技能以及项目快速落地的想法。
陈曦认为,两次参赛经历对他自己来说也是一个认知升级的过程。陈曦和他的团队第一次参赛时,工作量很大,干的非常辛苦,但偏题较远。结果最后导致背景不符,选题太大,思路不清,炫耀苦工,没能做出来真正解决重要问题的产品。
而第二次参加比赛,陈曦吸取了第一次参赛的教训,他总结的成功经验还是四句话:背景相符,选题要小,思路清晰,强调可行,直戳用户痛点,解决重要问题。当然,除了加强自己技术的同时,陈曦还补齐了一位相关行业背景的 商业 分析师,最终在实战操作中层层深入,直击痛点,做到了用20%的时间解决了80%的问题。
中科院地理信息博士姚晓婧是第一次参赛,她认为,现在是数据爆炸的时代, 手机 基本实现了全覆盖,人的行为和发生行为的位置、时间都为数据科学家和相关研究人员分析规模性行为趋势和预测提供了很好的数据基础。
地理信息科学可以将与位置相关的人类活动进行记录、分析和科学表达,可以渗透到金融、房产、消费、安防等很多领域。
晓婧看到,这次DoraHacks的比赛,有团队通过舆情分析来做 投资 股票交易策略。她当时就想到,如果这个预测模型能够跟投资者的地域特点结合起来,能否提高预测精度?因为人的投资倾向和地理位置是有关系度的。科学论证表明,人的活动百分之八十以上都和位置相关。地理信息科学加入Fintech是一个趋势,大有可为。
晓婧团队关于房产金融的项目是在现场组队的,吸引了三个来自京东产品、日立研发部和纽约大学的小伙伴,大家24小时高强度的工作让房产这个点子更加丰满,24小时的相处让大家结下了深厚的革命友谊。努力没有白费,最终拿到了二等奖,闭幕式后也得到不少企业抛来的橄榄枝,这坚定了大家继续深度实践这一想法的信心。
Hackathon的魅力在哪里?深陷工作和学习中的Hacker们有着无尽的创意,却常常没有时间和团队去实现,一个想法的实现依靠单一的技能很难达到,Hackathon为大家提供了24小时密集创意、开发的时间,聚集了来自各个领域最有激情、技术顶级的Hacker们, 自由结组,让曾经的创意落地为实实在在可以解决重要问题的产品。 喝着啤酒,碰撞着思想,一起战斗!
以下为本次活动中优秀项目介绍:
FinGoGo 店铺情报系统
使用电商店铺信息,商品信息和评论信息的数据,配合情感分析算法,为淘宝店铺提供店铺画像,制作了店铺信息系统的原型,并且为在场的观众提供了产品原型的链接。
FinGoGo的店铺画像产品可以为店铺的服务进行总体打分,并且对关键要素进行分解,例如物流服务,客服服务,退货满意度等。产品可以比较同行业的不同店铺的服务质量,以及比较行业服务满意度均值。
乐租app(GeoGeeks)
在中国的一线城市有超过70%的年轻人处于租房状态,因此中科院的乐租团队制作了乐租app,通过已经获取的卫星遥感数据,建立居住社区综合评价体系。
GeoGeeks使用了出租车和地铁等交通数据,植被,水体情况的遥感数据,以及POI兴趣点数据,建立了垃圾堆深度学习目标检测Faster-RCNN,环境数据模型等,对社区进行多维全面的评估。乐租的app将评估的结果转化成用户能够理解的内容,综合评价社区。
事件冲击的FTP曲线预测(成府班客)
成府班客是来自成府路的Banker团队,他们的项目是解决银行内部资金转移价格(FTP)曲线当前面临的问题: 对原始数据处理过于粗糙,且模型想对静态,不能及时反映市场的最新变动。成府班客设计的FTP曲线预测系统在构建基础母线的基础上,考虑事件冲击和企业信用溢价,实现更准确的FTP曲线预测。
除了获奖的前三名项目赛艇队和CPI的项目也获得了现场观众的一致好评。
以太坊ENS域名智能竞价系统(赛艇队 Exciting)
ENS是建立在以太坊区块链上的分布式命名系统,主要由注册表,解析器,和注册服务组成。注册服务(Registrars)是在 ENS 中拥有名称并可根据规则分配子域的智能合约。它使 用拍卖系统分配名称的.eth子域名,并反向解析以太坊地址,可用于绑定收款账号, Dapps以及智能合约,使其更易被大众记住。
域名购买采用拍卖的方式,取第二高价格成交。
赛艇队通过API收集历史交易数据,包括新开启的域名,开启人以及投注风金额,还有揭标金额与域名,并通过分词确定域名特性。赛艇队制作的系统有三个功能: 1. 输入域名,判断是否被注册 2. 判断域名是否手动开启,展示手动开启投注金额 3. 分析域名特征,展示具有相同特征的域名历史竞价特性,推荐该域名的三个最佳竞标金额及相应中标概率
这个系统有很明确的应用场景,例如提供API接口,批量估计域名竞标价,以及通过脚本进行竞标,优化资金竞标效率等。
金融资讯数据的结构化解读-情感分析(少帅队)
少帅队现场提取了股吧3200支股票的86万余条评论,抽取其中5万条建立了字典数据集,标注了数千条样本数据。产品对任何输入的句子进行分词和句向量提取后,通过一个情感分析的深度学习神经网络(RNN),输出情感分析的结果,在验证集中准确率超过80%。
网络大数据CPI测算 (CPI队)
传统CPI测算的有专业训练人员线下采访成本高,权重固定,随机采样,计算简单,数据滞后等问题,而且没有考虑网络零售交易。CPI团队从国家统计局分类出发,选取网络数据源,进行三级分类,根据交易额对各类指标设置权重,使用加权平均的方法计算CPI。
CPI团队计算使用的数据源包含网络零售数据,搜索数据,出租房挂牌数据,出行和旅行数据,药品交易数据等。这种方法考虑的数据量级比传统方法大很多,并且数据实时更新,权重可以动态调整,最终还降低统计成本。
调整权重: 根据交易额的变化,固定大类,优化细分类别
CPI团队将在一段时间内部署系统进行连续测算,并且与央行发布数据进行比较,两者形成互补。
关于DoraHacks
DoraHacks 在清华大学猫头鹰实验室的指导和帮助下,由世界著名的各个极客组织成员发起创立的hacker组织,DoraHacks的使命是连接全世界的hacker,解决重要而迫切的问题
DoraHacks长期持续地组织Hackathon、技术演讲与各种科技交流活动,旨在创造优秀而美好的科技产品,普及最新的科学和技术,传播Hacker的生活方式并促进新科技向社会应用的转化。
DoraHacks已经在清华、北大、北航、上交等高校成功举办了多场Hackathon,同时与出门问问、APUS、XCOR等公司合作,为各行业提供跨界交流的机会。此外,DoraHacks已经成功上线了多个跨界活动方案,包括12 场创意风暴、20场 DoraSpeaker、36场科技分享活动,并将Google Solve for X首次引入中国。