Spark 在金融领域的应用——日内走势预测
作者:李涛涛 通联数据
1. 同花顺收费版之走势预测
2014年后半年开始,国内 A 股市场可谓是热火朝天啊,路上的人谈的都是股票。小弟虽然就职金融互联网公司,但之前从来没有买过股票,但每天听着别人又赚了几套房几辆车,那叫一个心痒痒啊,那感觉,就跟一个出浴美女和你共处一室,但你却要死忍住不去掀开浴巾一样。终于,小弟还是”犯了全天下男人都会犯的错误”,还是在 2015.03.19 那天入市了,还记得自己的第一次是献给了一支叫 天建集团 的股票,好像当天还赚了一两百块吧,当时心情那叫一个激动,下班了第一时间就打电话给娘亲了。
哦,似乎有点扯得远了。言归正传,当时自己为了投资更方便,就花了将近 300 大洋买了同花顺的 level 2 版,里面有个功能,叫做 形态预测。具体就是,根据所有股票的历史行情,看看当前股票的未来一段时间的走势分布。下面是一个截图:
先不说这个预测准确度有多高,但首先这个思路不错,至少可以作为一个信号吧[当然一个稳健的投资策略肯定不能仅仅依赖于一个信号]
2. 形态选股
同花顺这个功能,其实也挺实用的,因为本身在股票市场技术指标这个分类下面,就有形态选股这样一种指标。比如说,经常听财经频道主持人说的 三阳开泰,圆弧底 什么的。
3. 指数日内相似度
今天,我们就来尝试一下,通过指数日内走势来进行宏观择时: 我们在早盘 11:00 时,使用当天上证指数的分时图,预测一下当天走势情况。
原理如下:使用上证指数历史分时数据,计算历史上每天 09:30 到 11:00 的分时段走势与今天早盘 09:30 到 11:00 走势的相似度。我们认为,相似度越高,则今日 11:00 到 15:00 走势和 15:00 的收盘涨跌,与历史当日的走势和收盘涨跌有较大的相似度。
结果预览,如下图所示哦:
4. spark 实现指数日内相似度
同样,我们也用第三篇 『 Spark 』3. spark 编程模式 讲到的三个步骤来实现这个简单的,但有实践意义的 spark 应用程序。
备注:为了方便理解,我把这个例子精简过了,只用上证指数 6 年的分钟线数据,对应的相似度算法也是采用最简单的算法。但是不影响对整个应用框架的理解和扩展。
4.1 加载数据集
本文用到的数据集已经上传到百度云了,上传文件是一个压缩文件,解压缩后把整个文件夹上传到 hadoop 上就行了,文件夹里有 1505 个文件,文件名表示上证指数某日的分钟线行情,文件内容即为历史当日分钟线行情:
4.2 处理数据
指定要预测的分钟线
计算相似度
4.3 结果展示
获取相似度高的分钟线
根据相似分钟线绘制预测图
5. Next
这个例子还算 ok 吧,可是我每天都应用的投资策略的一部分啊,已经下血本了,各位还不打赏打赏吗?一转眼 spark 已经快要有十篇 blog 了,本来原计划第九篇是总结一些 spark 性能优化的 tips 的。可是前几天一个朋友突然问我是怎么开发 spark 应用程序的。我才恍然大悟,一下子写了这么多篇,都没有把搭建开发环境的经验写出来的呢。
下一篇我就总结一下自己怎么搭建的一个 ipython + spark 的开发环境;不管各位有没有用过 ipython [notebook],我都强烈推荐使用,使用它能打打提高你的开发效率和开发体验,你一定会爱上他的,相信我。
via:Spark技术日报
End.