专访数库CEO刘彦:金融大数据平台是如何「养成」的?
在未来,金融行业的从业门槛会越来越低,当科技让信息不对称的差距变得越来越小,一个人或许能与一家大型的专业机构匹敌。在数库ChinaScope CEO刘彦看来,大数据以及人工智能技术的发展让金融数据平台变得愈加智能,这种变化也正在悄然影响着金融行业的生态。
曾在华尔街从事投行工作的刘彦一直对中国金融市场的发展十分关注,并最终于2009年来到中国创立「数库」,致力于打造智能化金融 数据分析平台 。前不久,CDA有幸采访到了他,听他聊一聊在国内金融行业的发展中,大数据扮演了怎样的角色。
曾服务于瑞士信贷 (Credit Suisse),在纽约、香港、大中华地区的银行、保险、交易所行业提供兼并购买、融资服务;是工商银行、建设银行、太平洋保险、纳斯达克改制上市等重大项目主要领头成员,拥有资深的金融分析、经济分析经验。
很早之前我就感觉到,世界的未来可能要由中国来推动的,所以我很早就开始准备到中国来发展。2004年,我毕业之后去了瑞士信贷,2005年调任到香港部门,业务涉及中国大陆、香港和台湾等,对中国市场很了解。那时国内很多地方还很不成熟,这样意味着有更多的机会可以挖掘。
我从2005年开始接触中国的证券市场,至今已经11年了。首先我看到了国内金融市场非常健康的发展趋势。当然现在仍有会有所谓的“股灾”,但是从信息的披露和标准,公司在资本层面运行的质量,监管的能力和管理层素质,以及投资人素质的提升程度,包括市场的健康程度,在所有这些指标上面,从2005年到现在,是一个非常大的飞跃。
❶ 金融 大数据平台 的「进化」之路
金融数据行业在上世纪90年代就开始做了,但真正爆发肇始于2005年。从2005年开始,中国进行了股权分置改革,把A股市场上的上市公司的股份分为流通股与非流通股,曾经大量非流通的股票流通了,这个过程花了几年时间,引爆了中国股票市场。而且那时恰好也是全球的大牛市,所以大家对金融信息的需求量也随之迅猛上涨。
在纽约自己做投行,分析员不需要自己去翻年报抠数据。因为在成熟的市场中,各类的数据供应商也非常成熟,你可以直接用他们的数据做分析。而我到香港去的时候发现,整个亚洲市场内,这个领域很不成熟。所以就萌生了做一个 数据公司 的想法。
在这段时间里,中国的数据领域发展的很快。我们看到,整个数据市场的价值点在转移。以前,能够拿到数据,这件事情本身就很有价值。但是互联网从2000年以后飞速发展,带宽、服务器储存量等每年在翻倍的增长,有更快的速度能够传输更多的数据,抓取处理信息的技术也更多了。获取信息的成本在不断下降,甚至是免费,这导致信息的价值点被挪移了。现在,更有价值的不是获取信息,而是如何解读信息。
所以从2009年创立到2012年,我们面临转型。首先,我们从架构开始改变,从简单的数据库式的架构,变成了分布式服务型架构,它必须能够支撑未来大量数据的储存和解读能力。其次,我们在数据库的应用上也做了改变。与以往sql结构化数据库不同,我们用了当时还不是很成熟的非结构化数据库。在调用大量信息的时候,非结构化数据库效率更高。
在此基础上,我们开始在数据处理上面做深度串联。结构化数据处理,实际上就是在寻找标签和标签之间的对应关系。这种对应关系就是容错表。人要通过看分析报告、年报、公司网站等等,把这些数据点对应起来,寻找之间的关系。而我们尝试运用机器学习的技术去捕捉人是怎样做容错的,把其中的逻辑思维记录下来,让机器去学习自动处理信息。
经过一段时间的积累,数据库的串联已经做起来了,我们的平台变得相对比较智能。
比如我们去算一个公司的估值,估值的方法很固定,通常是三种,第一种是做现金流折现的算法,第二种做历史兼并购买的算法,看类似公司在过去在兼并购买过程中估值是什么样的,做一个平均;第三种是可比公司的市场估值,看看那些具有可比性的上市公司在交易层面上的估值是多少。
方法其实很简单,但是你需要花很多时间去找到跟这家公司有可比性的企业,然后才可以做对比。而我们做的事情是,通过数据处理,把每一个业务线标准化、结构化,我很清楚一家公司做什么业务,每一条业务线占整体收入、毛利率的百分比是多少,也可以看到其他具有同一业务的公司指标是什么样的,这样一来估值就很容易了。
但这种智能化其实是比较低级的智能化,下一步要做什么?
我们在结构化和半结构的数据中形成了一套训练的容错表。容错表就是一套词库的关系,我们再拿这套词库关系作为训练表,去捕捉新闻。自然语言处理再国外英文环境中已经有了几十年的积累,但在国内发展时间还不是很长。我们用自然语言处理的技术分析所有的金融新闻,分析一篇文章怎样分词、讲到什么事件、句子如何组合起来,训练机器去分析新闻。新闻是非常非结构化的数据,机器从中提炼出不同的事件和事件主体,比如股东主体、产品主体、行业主体等等,算出他们之间都有什么关系,最终形成一段摘要,供投资者参考。
做摘要需要把各种因素提炼出来。在这个基础上还能做什么呢?
我们可以跟踪热点。实际上,热点的发生有着客观定量的方式,有其爆发和衰退的过程和规律。在投资层面上,这些热点也就是你可以关注的地方。在捕捉热点时,我们会抓取事件和事件主体,从某一事件的语言描述方式对它进行情感判断判,判断的准确度不会低于85%,这个数字还在不断上升,那么这在投资上面已经具有统计意义了,你就可以基于机器的判断做投资策略。
再下一步,我们既然已经能够处理非结构化的信息,那么能否再回来和结构化数据结合。我们已经搭建了产业链,结合产业链上不同的新闻信息主体,我们是否可以搭建投资策略,到这一步,我们又开始引进做量化投资的高端人才,把金融和科技更好地结合起来,来升级量化投资的概念。
❷ 从金融科技化到科技金融化
数库的每一步发展,都是从时代和技术的发展之中汲取灵感,金融行业翻也同样如此。现在的大家经历的是一个金融科技化的过程,就是从人操作变成机器操作,我以前读大学的时候太多人挤破头都想要进入华尔街,但现在华尔街在和硅谷竞争,很多人在往技术层面走。
在未来,我们想要做的是科技金融化。科技是一种因素或者工具,通过它发现以前人工时代难以发现的规律,来不断丰富金融的概念。比如刚刚讲到的,通过对新闻的分析,就可以帮你搭建一个投资策略。京东曾经在彭博上发布了十二组数据组合,是京东电商平台上销售物品的价格和销量。我们只看这个东西,没有办法做投资决策,但是如果把这个数据和可投资的二级市场的数据相结合,再把这个维度引用到量化投资中,就可以做出很不错的投资策略。
把这套东西通过一些友好的产品形展示给用户,不只是专业人士,有投资需求的普通人也可以使用。由此,金融行业的从业门槛变得很低,普通人也能够站在技术的肩膀上达到与专业人士差不多水准。
很多人是具有从事金融工作的能力的,但这个行业的职位容量是有限的。如果你有这个基础,那么我能不能给你一个平台,让你很快地学习金融,甚至不需要懂代码,就可以很快地用量化因子搭建自己的策略。当我们把普通人与大机构之间的信息差距拉平了之后,你是有能力跟他们竞争的。
大数据技术有效地推动投资,让市场更有竞争力和效率。同时,它也要求我们改变思维方式。以前很多做投资的金融人士会说投资是一门艺术,而非科学,但随着技术的发展,投资必然会越来越是一门科学,而不是艺术,通过更好地解读数据,做出最优的决策。
责任编辑:王培