高盛用1000万的投资,暴露了金融业可能根本没有大数据的现实
大数据行业中又出现了一例引人瞩目的投资,一家名为Crux Informatics的初创公司拿到了1000万美元的种子轮。1000万的金额不值一提,但这次投资的领投者是投行大鳄高盛。
Crux Informatics也只专注两件金融行业的事:第一,处理非结构化数据。第二,建立信息供应链保证各个金融机构的数据隐私,确保他们不被私自售卖和利用。
综合两点来看,Crux Informatics很可能是高盛在大数据领域最正确的一笔投资。
金融业有大数据?哈哈哈哈哈
说这话的原因,可以先用一个笑话来解答。
“Big Data is like teenage sex: Everyone talks about it, nobody really knows how to do it, everyone thinks everyone else is doing it, so everyone claims they are doing it too .”
大数据就像是青春期的性生活:每个人都在讨论,却没人知道到底要怎么做,每个人都觉得别人已经做过了,所以每个人都声称自己也有。
没错,在金融行业,尤其是传统金融机构中,大数据应用的比例要比我们想象中低得多。原因主要有以下两点:
第一,金融机构数据敏感性高,金融机构自身对数据的处理能力却不够。
每个银行的储蓄信息、证券机构的交易记录,这些数据不仅仅是我们作为客户的隐私,更关系着金融机构自己的经营状况、操作经验。交给科技企业来处理,没有意外万事大吉,可要是出了点什么状况,客户们忙着挤兑已经是最好的情况,要是有哪个程序员暗搓搓的用深度学习从交易记录中训练一个操盘模型……投行经营们只有哭的份了。
于是,我们会看到高盛、摩根大通这些大鳄这几年在人工智能技术方面的投资并不落后于科技企业。不过,那些中小金融机构该怎么办?
第二,金融机构中有大量非结构数据没能被利用。
关于结构化数据和非结构化数据的区别此前已经解释过很多,简单来说一类信息能够用数据或统一的结构加以表示,我们称之为结构化数据,如数字、符号;反之则是非结构化数据,比如图像、音频、视频、办公文档等等。
在金融机构自身产生的数据中,只有很少一部分是结构化数据,比如客户的存款数额、贷款数额、购买理财产品的编号等等。如果光用这些东西建立一个风控模型,相信一定是个不怎么精确,在市场上也没什么竞争力的模型。
而金融机构中最有价值的,还是那些非结构化数据,小到用户住址、学历、各种资产证明的复印件,大到操盘手们的交易记录。可这些数据都以图片、表格等等形式存在数据库中,没准还会定时被覆盖掉。金融机构自己是很难有能力处理这些数据的,根据结构化数据建立模型几乎是他们的极限了。可要是寻找外援来处理,就又回到了第一个问题,如何保证数据的隐私?
于是,为了解决这种迷之循环,高盛干脆找了一家能够一次解决两个问题的公司。
非结构化数据到底有多重要?
由于资料不足,我们暂时不能了解到Crux Informatics用来保护数据隐私的“信息供应链”究竟是什么,从字面上看,很有可能是区块链技术。不过,我们可以讨论一下保护数据的下一步:利用非结构化数据,对于金融机构来说到底有多重要。
先从最常说的风控谈起。我们理解的风控或许只是在放贷之前考察一下这个人有没有偿还能力,其实对于金融来说,风控常常贯彻在金融交易的整个过程中。
比如在涉及到工农业生产的供应链金融中,即使贷款主体有着足够的资质和偿还能力,金融机构更想看到的局面还是对方能够按时偿还贷款,而不是百般索求甚至没收对方的资产。这时动态的、精准的风控能力就非常重要。
最简单的例子:金融机构对历史数据进行整理,发现以往有过恶劣天气导致农作物歉收、贷款主体无法偿还贷款的情况。就可以在相同情况发生时,提前做出调整。
除了风控之外,在精准营销上非结构化数据也能起到作用。从广告投放到为客户推荐组合基金,每一步都需要对客户群体有着足够的了解。而想要了解客户,光靠存款金额是远远不够的。
比如向一位客户推荐产品时,我们可以粗暴的从他以往的购买记录判断他的喜好和风险承受能力,也可以通过他留在金融机构的其他数据:房产证、学历、行驶证来给出更完善的画像,教育程度偏低的人或许更倾向于保守投资,住在繁华地段、开豪车的人也许会因为更高的生活成本而无法承受风险……
我们甚至可以把电商的推荐算法应用起来,看看住在同一片区域的人是否有着相似的理财倾向。
总之,这一切都要依靠银行自己的非结构化数据。
尴尬的国情下,金融数据
创业者能和BAT共舞吗?
当我们把目光放回中国,情况又有些不同。
在金融机构数据的敏感度上,因为众所周知的原因,相比国外我们有过之而无不及。至于金融机构本身数据技术能力就更为尴尬,国有银行在金融产业占有优势地位,可大体量、国字头往往又意味着在新晋技术上稍微落后。
最后导致中国全体金融机构对于大数据的利用都较弱。这其中又会存在着哪些机会?
首先,BAT等巨头企业恐怕会成为这种情况下最大的受益者。
当无法利用自身数据,却又想追赶上大数据浪潮时,金融机构们纷纷开始选择直接利用科技企业的大数据成果。而BAT们垄断了大量的社交数据、电商数据和行为数据。甚至可以说,走出不能被利用的数据禁地,就又进入了被BAT们垄断的大数据海洋。
加上BAT的技术人才储备和丰富的营销渠道,直接把风控模型和精准营销交给他们是很好的选择。
但这也不证明创业团队就失去了用武之地。
BAT们虽然有着绝对优势,但他们多少都会涉及到金融业务,难免会和金融机构有竞争关系。目前双方处于“搁置争议,共同开发”的时期,不过也给了小团队另一种筹码。
想要与大象共舞,小团队显然不必用数据量和BAT们硬碰硬,从细微之处进行创新是个不错的选择。
比如算法:试着从现在流行的深度学习、增强学习等等角度出发,用算法去解决金融行业的需求,应用于高频交易的“冰山算法”就是个不错的例子。
比如智能硬件:在物联网的未来,用各种智能硬件增加数据收集的维度一定是重要趋势。开发能收集丰富农业、工业、零售业数据的智能硬件,一定会引起金融机构的兴趣。
比如区块链:用区块链安全、隐私等特性解决金融机构数据敏感这一终极问题,还担心拿不到融资?以ICO潮的热度来看,相信我国一定有足够多的区块链技术团队!
能做到以上几点中的任何一点,就算不能拿到金融机构的巨额投资,也一定能拿到BAT的投资,拿不到投资一定会被BAT收购,没被BAT收购……那就是被BAT抄袭了。
玩笑归玩笑。金融行业大数据领域大有可为,不管是大公司还是小团队,现在都还站在同一起跑线上呢。
更多精彩内容,关注钛媒体微信号(ID:taimeiti),或者下载钛媒体App