比你更懂你的行为,“选股圣手”大数据怎么做互联网金融的巴菲特
【i天下网商注】每个平台的用户都像是亚马逊丛林里的“蝴蝶”,他们扇动翅膀,可能影响到股票走势。互联网巨头们祭出“大数据”这一杀器,试图为变幻莫测的股市“风口”提供路标。你的行为无所不在,数据来源于你,收益来源于数据,各大平台如何运作王牌数据入口?
文/刘志毅
各大互联网社交平台上的用户行为大数据,成为投资股市最新鲜及时的决策参考因子。
每个平台的用户都像是亚马逊丛林里的“蝴蝶”,他们扇动翅膀,可能影响到股票走势。
如今,这些沉淀的数据试图预测股市“风口”,不过,信息的传播是否足够自由是其最大挑战。
BAT再度碰头,手中武器未变,背景换成了全民热捧的大牛市。互联网巨头们祭出“大数据”这一杀器,试图为变幻莫测的股市“风口”提供路标。
自2014年9月份以来,新浪财经、百度以及阿里旗下的蚂蚁金服陆续与基金公司、指数公司合作,发布相应的大数据指数基金产品。据记者了解,腾讯也正在与某基金公司洽谈合作,出品自己的大数据指数基金。
此刻A股疯牛暂歇,走出了普天同涨的热闹局面之后,个股开始显著分化。
资金却不改饥渴。从机构到散户,每一笔资金都在急切地寻找着可能将爆发的领域、题材或者概念。但前往“风口”的路并不好走,市场里的一个小喷嚏,都可能令投资人措手不及。
与互联网公司合作的基金无一例外地宣称,其利用各自互联网平台的大数据优势,能够更及时地感应到舆论、市场或者行业的情绪变化,并在一个更短的周期里迅速调整决策,以获得更稳定优质的回报。
众神齐聚,剩下的问题只有一个,大数据真的能帮你避开风险,并如愿找到“风口”吗?
用“卫星”监控行业,构建蝴蝶效应微模型
抓住社交平台的总体情绪,似乎就抓住了许多事情的走向。
按照传统投资理论,一只股票的价值事实上在于其公司未来的盈利能力,以及市场对该能力值的综合预期。“为了尽可能合理地做判断,以前的投资人都要看财报,派专人去公司调研,或者跟他的上下游供应商客户去交流。但等到财报来了,数据至少已经滞后一个季度了。”蚂蚁金服相关人士对记者说。在他眼里,大数据做的事情,就是实时监控行业情况。
拥有数百年悠久历史的金融行业对于各实体行业里公司的估值事实上已经有了一套成熟的方法论,大数据并没有改变这个方法论,而是为其带来了最新鲜及时的数据。
“美国有一家投资机构干了一件事儿,用卫星拍各大商场的停车场的车的数量,推导进超市买东西的人的频次、密集度,来分析快消行业的景气程度。”上述人士说,“但是成本太高,现在这么多的交易在网上进行,电商数据就可以起到这个卫星的作用。”
在“中证淘金大数据100指数”中,蚂蚁金服的贡献是一个叫做“行业景气指数”的因子。影响这个“行业景气指数”的变量包括行业价格、行业活力、行业供需等,这些数据都能够从电商平台的数据沉淀中获知,计算方法则根据行业不同各有差异。
每天,经由阿里系平台发生的上亿笔支付都将汇总到相应的“行业景气指数”中,经过脱敏后,对下个月的淘金100指数标的组合产生影响。这似乎是“蝴蝶效应”的一个微观模型:每一个参与网购的用户都像是亚马逊丛林里的“蝴蝶”,他们扇动翅膀,可能影响到的是整个行业的股票走势。
从牛市中的表现来看,各只大数据指数基金都十分抢眼,多有超过大盘的表现。2015年第一季度,“中证淘金大数据100指数”收益率41.48%,同期的上证指数上涨15.01%。
这样的尝试在海外早有先例。2011年5月,对冲基金公司Derwent Capital Markets发布了世界上首只社交媒体对冲基金。它实时接收Twitter等社交媒体上的信息,将所有用户产生的与目标股票公司相关的文字编码为积极、平稳和消极三个情绪指标,再根据情绪指标进行投资决策。这只对冲基金在交易的首月就实现了远高于其他对冲基金平均数的收益率。
背后还不乏学术界的实证研究。
美国印第安纳大学约翰·博伦(Johan Bollen)等人2011年3月发表的研究《Twitter mood predicts stock markets(推特情绪预测股票市场)》称,Twitter上的发言所体现的情绪能够对股票市场有预测作用,如果合适地度量投资者情绪,进而可指导投资。
如果按照更细的情绪状态编码推文,并与社会事件做对比,Twitter甚至会像一个活生生的人一样——在大选前一日开始紧张,在大选日当天变得冷静、活力、友善、幸福,在大选日后又回归平常;在西方传统的感恩节当天,整个Twitter洋溢着浓浓的幸福味道,过后又恢复正常。
这些研究者还发现,同样的方法在预测电影票房、选举结果等方面都有不俗表现。还有类似的论文对google的搜索日志进行研究,发现对股票的搜索热度同样对股市有预测性。
广发证券做过一个更简单的研究。其统计了百度新闻下的沪深300指数成分股的新闻数量,上市公司的新闻突然增多就视为利好,反之视为利空。对2011年至2014年5月2日的历史数据回测发现,仅通过监测新闻的多寡,就可实现37.03%的年化收益,而同期沪深300指数却下跌了16.24%。
抓住社交平台的总体情绪,似乎就抓住了许多事情的走向。但遗憾的是,研究者们也意识到,大数据对于会冲击金融市场的突发事件仍旧无可奈何。
同一个数据世界,不同的王牌入口
不同的数据来源特性也决定了大数据的不同擅长领域。
大数据在这一领域的应用,使得每一个平台的入口地位显得更为珍贵。有入口才有数据沉淀,有了数据沉淀才有了一切可能。
不同的数据来源特性也决定了大数据的不同擅长领域。电商是阿里当仁不让的王牌,于是电商消费数据就成了预测的依据之一。不过由于数据入口的性质不一,每颗“卫星”能监测到的范围也各有不同。
以阿里的淘金100指数为例,据官方资料称,电商数据涉及三十余个行业,覆盖70%的上市公司,但钢铁、保险、基础设施建设等行业是电商数据难以覆盖的领域。
涉猎面更广的搜索引擎则在此有更大空间。上海交通大学互联网学者魏武挥分析说,蚂蚁金服基于交易流水的数据,清洗工作量相对小,但覆盖面对经营者端(to B)的行业有点吃力,虽然百度百发基于搜索的指数,能覆盖到几乎所有的行业。但数据源强大但过于碎片,数据清洗工作量大。
相应地,腾讯在社交和娱乐方面的优势,也可能在后期展现,但是同样面临数据结构化的难题。尽管还没有正式推出真正意义上的大数据指数产品,腾讯在炒股APP上也早有布局。腾讯财经负责人表示,“腾讯自选股有五千万以上的用户,某一类人加入或者剔除了某一只自选股,也很能说明关注度的变化。大数据不仅仅是(财经报道)文章,还有很多其他指标。”
新浪财经介绍,他们提供大数据支持的南方大数据系列指数在决策时加入的参考因子包括海量的财经资讯,以及日均过百万条的财经博文等。
在公共领域几乎具有垄断优势的新浪微博则是他们的另一个杀手锏,5亿多注册账号以及与这些账号直接相连的超过5万个应用,产生巨量的用户行为数据,反映市场情绪。“除了搜索量和关注度,我们还有文本分析与情感判断,如果一个行业在新浪上的搜索和关注度特别高,我们会进一步判断与这个行情相关的资讯和用户内容,区分出是点赞,还是吐槽。”
易方达基金副总裁陈彤刚从硅谷考察归来,考察的对象也是大数据。他的感受是,当数据的“烹调方法”被学会之后,占有绝对原材料的一方就理所当然变得更有影响力。魏武挥甚至“脑洞大开”地预测,下一个做大数据指数的是搜狗,因为其输入法的数据沉淀可以轻易获知人们正在用的词是哪些。
博时基金对媒体称,蚂蚁金服行业景气指数是其独特的信息源,也是编制指数的三大因子之一,有独特作用。根据博时基金测算,蚂蚁金服行业景气指数在整体所有因子中的权重大约是在1/4到1/3左右,这也是随着不同年份和不同市场的情况变化的。
接近博时基金的人士透露,加入大数据因子,给指数多带来了大约30%的超额收益。另两个因子是博时基金传统的财务因子和市场驱动因子。
极其类似的是,新浪与南方基金等公司合作发布的南方i100大数据指数的三大因子也包括传统的财务、市场驱动因子,与蚂蚁金服仅有一点不一样,新浪提供的是投资者情绪因子。与Twitter类似,新浪微博也可以很好地体现市场情绪。但是一个重要的前提是——信息的传播足够自由。
退潮方知谁在裸泳,大数据是“长跑选手”
大数据投资不仅需要长时间的实践来检验模型,也更倾向于做长期的理性投资。
大数据在投资策略上的应用才刚刚上路。
“大数据处理需要一套较为复杂的系统,通过回归分析、因子分析等方法把重要的变量筛选出来。目前在中国,完全基于大数据的(策略)还没有。更多时候,大数据是作为一个重要因子,给事物分析提供一种参考。”陈彤说。
广发基金大数据部副总经理季峰对百度成功预测高考作文题印象深刻,通过大数据筛选出的高考作文主题和关键词,在2014年命中了2/3的高考作文题。2014年的巴西世界杯期间,百度又成功预测了八强和四强球队。
不过季峰发现,即便能够掌握到人们在一条新闻上停留的时间长短,选择股票还是没有这么简单。“暴风科技连拉37个涨停,可能当时是市场关注度最高的,但是仅凭这个指标把它选进来,可能就刚好高位接盘了;工商银行在搜索行为中的绝对存量排名靠前,但是也难以被选入投资组合,我们并非单纯依靠一两个指标去选股。你怎么去处理这个数据,怎么翻译,是一个核心的问题。”对于公募基金而言,价格异动、风险偏高都会成为股票进入投资组合的障碍。
数据的波动过大,甚至可能会被作为数据噪点处理,这就要对算法进行进一步调整。在市场的检验中,模式识别、机器学习,乃至人工调整都将不断优化既有的模型。“至少要经历一个完整的股市周期,我们才能比较完整地看到这种策略的有效性。”巴菲特有一个著名的比喻是,只有在退潮时,你才能看到谁在裸泳。
从这个意义上说,大数据是一个“长跑选手”,不仅需要长时间的实践来检验模型,也更倾向于做长期的理性投资。
不过牛市之下,带有“大数据”字样的指数基金一销售起来都是“超短跑选手”。常常等不到第二个申购日,基金公司就不得不因满额而宣布提前结束申购。
4月22日,由新浪财经与南方基金合作的南方大数据100指数基金于发售当天一日售罄,配售比为27.88%。4月10日,广发百度百发100E类份额第二次打开申购,仅在百度金融中心的渠道内,4分钟的申购金额就过亿。这次申购只有5亿元的额度,每位投资者限额30万元,却有20.32亿元的资金申购,最终配售比例是24.6%。
陈彤对大数据分析的另一个担忧是隐私,企业可在个人无法控制或不知晓的情况下,收集、存储、分析和利用个人数据。他曾在一家著名的数据公司看到,对某个产品的评论可以直接显示到发言的具体个人。“你可以想象这是多么恐怖”,后来这家公司在更新版本时就调整为只显示评论的性质、相应的比例,而不会具体到个人。
出于对商户数据安全的考虑,蚂蚁金服表示,虽然完全有能力,但是他们不会做某一个具体企业的数据。“全部经过脱敏后使用,开放给外部的一些金融机构,” “我们拥有数据,但我们想要搭建的还是一个生态,让机构入驻进来,然后利用这些开放的数据开发出更多产品。”
依靠这些巨量的平台入口,每一个用户在贡献着自己的行为数据。每分每秒,机器在不断整理、分析,并以此为人们做出决策参考,甚至直接代替人们瞬时作出重大的投资决定。
此前有文章据此做了一个大胆的想象,当人工智能通过深度学习等技术能够控制媒体写作与舆论的时候,基于舆论的自动决策系统进而敏感快速地作出相应交易,然后舆论被人工智能进一步加强,自动决策系统再次启动……进入一个循环中。
其调侃地写道,“A股市场能不能上10000点和人类一点关系都没有……那时,资本市场已经和整个人类都没有关系了。”
(编辑/天下网商 姜雪芬 文章来源于南方周末,经过天下网商编辑,转载请注明作者和出处)
*文章为作者独立观点,不代表天下网商立场
文/刘志毅
每个平台的用户都像是亚马逊丛林里的“蝴蝶”,他们扇动翅膀,可能影响到股票走势。
如今,这些沉淀的数据试图预测股市“风口”,不过,信息的传播是否足够自由是其最大挑战。
BAT再度碰头,手中武器未变,背景换成了全民热捧的大牛市。互联网巨头们祭出“大数据”这一杀器,试图为变幻莫测的股市“风口”提供路标。
自2014年9月份以来,新浪财经、百度以及阿里旗下的蚂蚁金服陆续与基金公司、指数公司合作,发布相应的大数据指数基金产品。据记者了解,腾讯也正在与某基金公司洽谈合作,出品自己的大数据指数基金。
此刻A股疯牛暂歇,走出了普天同涨的热闹局面之后,个股开始显著分化。
资金却不改饥渴。从机构到散户,每一笔资金都在急切地寻找着可能将爆发的领域、题材或者概念。但前往“风口”的路并不好走,市场里的一个小喷嚏,都可能令投资人措手不及。
与互联网公司合作的基金无一例外地宣称,其利用各自互联网平台的大数据优势,能够更及时地感应到舆论、市场或者行业的情绪变化,并在一个更短的周期里迅速调整决策,以获得更稳定优质的回报。
众神齐聚,剩下的问题只有一个,大数据真的能帮你避开风险,并如愿找到“风口”吗?
用“卫星”监控行业,构建蝴蝶效应微模型
抓住社交平台的总体情绪,似乎就抓住了许多事情的走向。
按照传统投资理论,一只股票的价值事实上在于其公司未来的盈利能力,以及市场对该能力值的综合预期。“为了尽可能合理地做判断,以前的投资人都要看财报,派专人去公司调研,或者跟他的上下游供应商客户去交流。但等到财报来了,数据至少已经滞后一个季度了。”蚂蚁金服相关人士对记者说。在他眼里,大数据做的事情,就是实时监控行业情况。
拥有数百年悠久历史的金融行业对于各实体行业里公司的估值事实上已经有了一套成熟的方法论,大数据并没有改变这个方法论,而是为其带来了最新鲜及时的数据。
“美国有一家投资机构干了一件事儿,用卫星拍各大商场的停车场的车的数量,推导进超市买东西的人的频次、密集度,来分析快消行业的景气程度。”上述人士说,“但是成本太高,现在这么多的交易在网上进行,电商数据就可以起到这个卫星的作用。”
在“中证淘金大数据100指数”中,蚂蚁金服的贡献是一个叫做“行业景气指数”的因子。影响这个“行业景气指数”的变量包括行业价格、行业活力、行业供需等,这些数据都能够从电商平台的数据沉淀中获知,计算方法则根据行业不同各有差异。
每天,经由阿里系平台发生的上亿笔支付都将汇总到相应的“行业景气指数”中,经过脱敏后,对下个月的淘金100指数标的组合产生影响。这似乎是“蝴蝶效应”的一个微观模型:每一个参与网购的用户都像是亚马逊丛林里的“蝴蝶”,他们扇动翅膀,可能影响到的是整个行业的股票走势。
从牛市中的表现来看,各只大数据指数基金都十分抢眼,多有超过大盘的表现。2015年第一季度,“中证淘金大数据100指数”收益率41.48%,同期的上证指数上涨15.01%。
这样的尝试在海外早有先例。2011年5月,对冲基金公司Derwent Capital Markets发布了世界上首只社交媒体对冲基金。它实时接收Twitter等社交媒体上的信息,将所有用户产生的与目标股票公司相关的文字编码为积极、平稳和消极三个情绪指标,再根据情绪指标进行投资决策。这只对冲基金在交易的首月就实现了远高于其他对冲基金平均数的收益率。
背后还不乏学术界的实证研究。
美国印第安纳大学约翰·博伦(Johan Bollen)等人2011年3月发表的研究《Twitter mood predicts stock markets(推特情绪预测股票市场)》称,Twitter上的发言所体现的情绪能够对股票市场有预测作用,如果合适地度量投资者情绪,进而可指导投资。
如果按照更细的情绪状态编码推文,并与社会事件做对比,Twitter甚至会像一个活生生的人一样——在大选前一日开始紧张,在大选日当天变得冷静、活力、友善、幸福,在大选日后又回归平常;在西方传统的感恩节当天,整个Twitter洋溢着浓浓的幸福味道,过后又恢复正常。
这些研究者还发现,同样的方法在预测电影票房、选举结果等方面都有不俗表现。还有类似的论文对google的搜索日志进行研究,发现对股票的搜索热度同样对股市有预测性。
广发证券做过一个更简单的研究。其统计了百度新闻下的沪深300指数成分股的新闻数量,上市公司的新闻突然增多就视为利好,反之视为利空。对2011年至2014年5月2日的历史数据回测发现,仅通过监测新闻的多寡,就可实现37.03%的年化收益,而同期沪深300指数却下跌了16.24%。
抓住社交平台的总体情绪,似乎就抓住了许多事情的走向。但遗憾的是,研究者们也意识到,大数据对于会冲击金融市场的突发事件仍旧无可奈何。
同一个数据世界,不同的王牌入口
不同的数据来源特性也决定了大数据的不同擅长领域。
大数据在这一领域的应用,使得每一个平台的入口地位显得更为珍贵。有入口才有数据沉淀,有了数据沉淀才有了一切可能。
不同的数据来源特性也决定了大数据的不同擅长领域。电商是阿里当仁不让的王牌,于是电商消费数据就成了预测的依据之一。不过由于数据入口的性质不一,每颗“卫星”能监测到的范围也各有不同。
以阿里的淘金100指数为例,据官方资料称,电商数据涉及三十余个行业,覆盖70%的上市公司,但钢铁、保险、基础设施建设等行业是电商数据难以覆盖的领域。
涉猎面更广的搜索引擎则在此有更大空间。上海交通大学互联网学者魏武挥分析说,蚂蚁金服基于交易流水的数据,清洗工作量相对小,但覆盖面对经营者端(to B)的行业有点吃力,虽然百度百发基于搜索的指数,能覆盖到几乎所有的行业。但数据源强大但过于碎片,数据清洗工作量大。
相应地,腾讯在社交和娱乐方面的优势,也可能在后期展现,但是同样面临数据结构化的难题。尽管还没有正式推出真正意义上的大数据指数产品,腾讯在炒股APP上也早有布局。腾讯财经负责人表示,“腾讯自选股有五千万以上的用户,某一类人加入或者剔除了某一只自选股,也很能说明关注度的变化。大数据不仅仅是(财经报道)文章,还有很多其他指标。”
新浪财经介绍,他们提供大数据支持的南方大数据系列指数在决策时加入的参考因子包括海量的财经资讯,以及日均过百万条的财经博文等。
在公共领域几乎具有垄断优势的新浪微博则是他们的另一个杀手锏,5亿多注册账号以及与这些账号直接相连的超过5万个应用,产生巨量的用户行为数据,反映市场情绪。“除了搜索量和关注度,我们还有文本分析与情感判断,如果一个行业在新浪上的搜索和关注度特别高,我们会进一步判断与这个行情相关的资讯和用户内容,区分出是点赞,还是吐槽。”
易方达基金副总裁陈彤刚从硅谷考察归来,考察的对象也是大数据。他的感受是,当数据的“烹调方法”被学会之后,占有绝对原材料的一方就理所当然变得更有影响力。魏武挥甚至“脑洞大开”地预测,下一个做大数据指数的是搜狗,因为其输入法的数据沉淀可以轻易获知人们正在用的词是哪些。
博时基金对媒体称,蚂蚁金服行业景气指数是其独特的信息源,也是编制指数的三大因子之一,有独特作用。根据博时基金测算,蚂蚁金服行业景气指数在整体所有因子中的权重大约是在1/4到1/3左右,这也是随着不同年份和不同市场的情况变化的。
接近博时基金的人士透露,加入大数据因子,给指数多带来了大约30%的超额收益。另两个因子是博时基金传统的财务因子和市场驱动因子。
极其类似的是,新浪与南方基金等公司合作发布的南方i100大数据指数的三大因子也包括传统的财务、市场驱动因子,与蚂蚁金服仅有一点不一样,新浪提供的是投资者情绪因子。与Twitter类似,新浪微博也可以很好地体现市场情绪。但是一个重要的前提是——信息的传播足够自由。
退潮方知谁在裸泳,大数据是“长跑选手”
大数据投资不仅需要长时间的实践来检验模型,也更倾向于做长期的理性投资。
大数据在投资策略上的应用才刚刚上路。
“大数据处理需要一套较为复杂的系统,通过回归分析、因子分析等方法把重要的变量筛选出来。目前在中国,完全基于大数据的(策略)还没有。更多时候,大数据是作为一个重要因子,给事物分析提供一种参考。”陈彤说。
广发基金大数据部副总经理季峰对百度成功预测高考作文题印象深刻,通过大数据筛选出的高考作文主题和关键词,在2014年命中了2/3的高考作文题。2014年的巴西世界杯期间,百度又成功预测了八强和四强球队。
不过季峰发现,即便能够掌握到人们在一条新闻上停留的时间长短,选择股票还是没有这么简单。“暴风科技连拉37个涨停,可能当时是市场关注度最高的,但是仅凭这个指标把它选进来,可能就刚好高位接盘了;工商银行在搜索行为中的绝对存量排名靠前,但是也难以被选入投资组合,我们并非单纯依靠一两个指标去选股。你怎么去处理这个数据,怎么翻译,是一个核心的问题。”对于公募基金而言,价格异动、风险偏高都会成为股票进入投资组合的障碍。
数据的波动过大,甚至可能会被作为数据噪点处理,这就要对算法进行进一步调整。在市场的检验中,模式识别、机器学习,乃至人工调整都将不断优化既有的模型。“至少要经历一个完整的股市周期,我们才能比较完整地看到这种策略的有效性。”巴菲特有一个著名的比喻是,只有在退潮时,你才能看到谁在裸泳。
从这个意义上说,大数据是一个“长跑选手”,不仅需要长时间的实践来检验模型,也更倾向于做长期的理性投资。
不过牛市之下,带有“大数据”字样的指数基金一销售起来都是“超短跑选手”。常常等不到第二个申购日,基金公司就不得不因满额而宣布提前结束申购。
4月22日,由新浪财经与南方基金合作的南方大数据100指数基金于发售当天一日售罄,配售比为27.88%。4月10日,广发百度百发100E类份额第二次打开申购,仅在百度金融中心的渠道内,4分钟的申购金额就过亿。这次申购只有5亿元的额度,每位投资者限额30万元,却有20.32亿元的资金申购,最终配售比例是24.6%。
陈彤对大数据分析的另一个担忧是隐私,企业可在个人无法控制或不知晓的情况下,收集、存储、分析和利用个人数据。他曾在一家著名的数据公司看到,对某个产品的评论可以直接显示到发言的具体个人。“你可以想象这是多么恐怖”,后来这家公司在更新版本时就调整为只显示评论的性质、相应的比例,而不会具体到个人。
出于对商户数据安全的考虑,蚂蚁金服表示,虽然完全有能力,但是他们不会做某一个具体企业的数据。“全部经过脱敏后使用,开放给外部的一些金融机构,” “我们拥有数据,但我们想要搭建的还是一个生态,让机构入驻进来,然后利用这些开放的数据开发出更多产品。”
依靠这些巨量的平台入口,每一个用户在贡献着自己的行为数据。每分每秒,机器在不断整理、分析,并以此为人们做出决策参考,甚至直接代替人们瞬时作出重大的投资决定。
此前有文章据此做了一个大胆的想象,当人工智能通过深度学习等技术能够控制媒体写作与舆论的时候,基于舆论的自动决策系统进而敏感快速地作出相应交易,然后舆论被人工智能进一步加强,自动决策系统再次启动……进入一个循环中。
其调侃地写道,“A股市场能不能上10000点和人类一点关系都没有……那时,资本市场已经和整个人类都没有关系了。”
(编辑/天下网商 姜雪芬 文章来源于南方周末,经过天下网商编辑,转载请注明作者和出处)
*文章为作者独立观点,不代表天下网商立场