Spark 在金融领域的应用——日内走势预测

我是创始人李岩:很抱歉!给自己产品做个广告,点击进来看看。  

Spark 在金融领域的应用——日内走势预测

作者:李涛涛 通联数据

1. 同花顺收费版之走势预测

2014年后半年开始,国内 A 股市场可谓是热火朝天啊,路上的人谈的都是股票。小弟虽然就职金融互联网公司,但之前从来没有买过股票,但每天听着别人又赚了几套房几辆车,那叫一个心痒痒啊,那感觉,就跟一个出浴美女和你共处一室,但你却要死忍住不去掀开浴巾一样。终于,小弟还是”犯了全天下男人都会犯的错误”,还是在 2015.03.19 那天入市了,还记得自己的第一次是献给了一支叫 天建集团 的股票,好像当天还赚了一两百块吧,当时心情那叫一个激动,下班了第一时间就打电话给娘亲了。

哦,似乎有点扯得远了。言归正传,当时自己为了投资更方便,就花了将近 300 大洋买了同花顺的 level 2 版,里面有个功能,叫做 形态预测。具体就是,根据所有股票的历史行情,看看当前股票的未来一段时间的走势分布。下面是一个截图:

Spark 在金融领域的应用——日内走势预测
截图说明:颜色越深,概率越大,包括一组预测的 k 线走势。就像上面说的,上面的那支股票的预测结果是:未来3周收益大于 4.0% 的概率有 60%。amazing…

先不说这个预测准确度有多高,但首先这个思路不错,至少可以作为一个信号吧[当然一个稳健的投资策略肯定不能仅仅依赖于一个信号]

2. 形态选股

同花顺这个功能,其实也挺实用的,因为本身在股票市场技术指标这个分类下面,就有形态选股这样一种指标。比如说,经常听财经频道主持人说的 三阳开泰,圆弧底 什么的。

3. 指数日内相似度

今天,我们就来尝试一下,通过指数日内走势来进行宏观择时: 我们在早盘 11:00 时,使用当天上证指数的分时图,预测一下当天走势情况。

原理如下:使用上证指数历史分时数据,计算历史上每天 09:30 到 11:00 的分时段走势与今天早盘 09:30 到 11:00 走势的相似度。我们认为,相似度越高,则今日 11:00 到 15:00 走势和 15:00 的收盘涨跌,与历史当日的走势和收盘涨跌有较大的相似度。

结果预览,如下图所示哦:

Spark 在金融领域的应用——日内走势预测

4. spark 实现指数日内相似度

同样,我们也用第三篇 『 Spark 』3. spark 编程模式 讲到的三个步骤来实现这个简单的,但有实践意义的 spark 应用程序。

备注:为了方便理解,我把这个例子精简过了,只用上证指数 6 年的分钟线数据,对应的相似度算法也是采用最简单的算法。但是不影响对整个应用框架的理解和扩展。

4.1 加载数据集

本文用到的数据集已经上传到百度云了,上传文件是一个压缩文件,解压缩后把整个文件夹上传到 hadoop 上就行了,文件夹里有 1505 个文件,文件名表示上证指数某日的分钟线行情,文件内容即为历史当日分钟线行情:

Spark 在金融领域的应用——日内走势预测
下面,我们先创建 SparkContext,然后加载存放在 hdfs 上的数据。 Spark 在金融领域的应用——日内走势预测

 

4.2 处理数据

指定要预测的分钟线 Spark 在金融领域的应用——日内走势预测

计算相似度 Spark 在金融领域的应用——日内走势预测

 

4.3 结果展示

获取相似度高的分钟线 Spark 在金融领域的应用——日内走势预测

 

根据相似分钟线绘制预测图 Spark 在金融领域的应用——日内走势预测

Spark 在金融领域的应用——日内走势预测

5. Next

这个例子还算 ok 吧,可是我每天都应用的投资策略的一部分啊,已经下血本了,各位还不打赏打赏吗?一转眼 spark 已经快要有十篇 blog 了,本来原计划第九篇是总结一些 spark 性能优化的 tips 的。可是前几天一个朋友突然问我是怎么开发 spark 应用程序的。我才恍然大悟,一下子写了这么多篇,都没有把搭建开发环境的经验写出来的呢。

下一篇我就总结一下自己怎么搭建的一个 ipython + spark 的开发环境;不管各位有没有用过 ipython [notebook],我都强烈推荐使用,使用它能打打提高你的开发效率和开发体验,你一定会爱上他的,相信我。

via:Spark技术日报

End.

随意打赏

hadoop sparkspark 应用spark应用金融领域创业spark
提交建议
微信扫一扫,分享给好友吧。