大数据市场乱象:用人工智能讲故事 低质虚假数据大量倒卖
大数据行业看上去似乎并没有受资本寒冬的影响。仅今年4月以来,大数据行业就有7家公司获得融资,其中国外4家、国内3家,金额总计约11亿元人民币。而这一情况已经持续了很久,2016年仅上半年就有22起与大数据相关的企业获得融资,从天使轮到C轮均有。
伴随着资本大量进入大数据行业,出现了创业公司估值过高的现象,好像只要打上大数据的标签,一些公司的估值动辄翻番好几倍。企业信用数据服务商上海斯睿德信息技术有限公司出现在上述7家公司名单中,其不仅近期刚获得由东方海富领投的数千万元融资,且最近18个月已经成功完成了3轮融资。而另一家2015年8月刚成立的大数据公司鼎复数据也在一年多的时间内完成了2轮1.07亿元的融资。
就此现象,上海斯睿德信息技术有限公司CEO赵杰在接受第一财经采访时表示,大数据公司受资本追捧,本质上是因为,物以稀为贵。虽然国内这两年大数据企业融资速度快、频率高,但真正能融到资的在市场上其实并不多,很多用人工智能讲故事、单纯拥有多少亿数量级数据的公司是很难获得资本青睐的。
人工智能是个好“故事”
记者在查阅上述新近完成融资的大数据公司资料时发现,各家企业无一例外都在自己的宣传介绍中提到了人工智能。而不仅是大数据公司,一些征信公司和互联网金融公司也都会说自己在利用人工智能识别信用风险或者反欺诈。
但实际上,人工智能并不是高不可攀的东西。“我认为大家没有必要把人工智能给神话了,过去十年在大数据行业的带动下,深度学习、自然语言处理等技术得到快速发展,为今天人工智能的爆发奠定了坚实的基础。但是如何把掌握的技术落地成产品,挖掘数据资源,帮助企业用户更高效、更低成本地解决风控问题,才是我们努力的方向。”赵杰表示。
就拿机器学习的建模环节来说,在过往的很多场景中其实都是需要建模的。例如,去银行贷款买房或者申请信用卡,银行给你授信,一个刚毕业的学生和在职场工作很多年的高级白领,额度必然是不一样的,这里就会涉及到模型的设立。在此模型中,会有很多个维度的数据,学历、收入水平、婚姻状况、过往信贷记录等。过去往往会采用专家法和计量分析等方法建模,通过人工网查获取各类信息。
现在,伴随各类智能技术的发展,机器可以在分秒内处理上十亿次的数据,于是就开始引入机器学习。机器学习本质上是先找一些数据样本,这些样本有好有坏。随后将全量数据放入模型中,让系统自己识别,如果发现在好的样本中90%都具备某一共同特征例如“受过高等教育”,则系统就会自动认为受过高等教育的人信用佳。反之,当系统发现坏的样本具备“拥有五张以上信用卡”的特征,它便会将此认定为信用差的特征。随着样本数据的增多,系统识别出的特征维度就越全面,得出的结论也就越准确。
在当前的技术条件下,机器学习也不是万能的,如果是机器没有学习过的数据,它便无法自主做出正确的应对。从1997年IBM的“深蓝”战胜了卡斯帕罗夫到20年后AlphaGo以4:1的成绩战胜李世石,验证了人工智能技术的趋于成熟,随着样本数据的增多,系统识别出的特征维度就越全面,得出的结论也就越准确。但是AlphaGO输掉的这一局却是因为遇到了从没有学习过的“怪棋”,价值网络瞬间崩溃。
至于神经网络、决策树、随机森林、机器学习等“高大上”的名词,实际上也无需夸大它们的作用。“像多元神经网络这样的算法模型早就是非常成熟的多元数学统计方法,很早就应用于物理学、力学以及工业领域,但并未被大众所熟知。也是因为这两年大数据市场火爆,才把这些名词带到大众视野内。”赵杰对记者表示。
有关人工智能的故事常常还会引申到“团队成员为国际高端人才”上,在赵杰看来,掌握国外先进的算法技术只是一个方面,有些技术在国外的应用环境下是适用的,但如果直接照搬到国内,不结合国内的实际情况,也无法提供符合国内应用场景的解决方案。
好算法不如好数据
“Better data beats better algorithm(好数据能打败好算法),有一套厉害的算法模型不如有一套靠谱的数据。”棱镜大数据研究院首席科学家廖辰瀚博士对第一财经记者表示。
“实际上在整个解决实际问题的过程中,人工智能建模所花费的精力只占30%,而70%的精力都花费在信息的获取和处理数据上。用人工智能做风控和模型的切入点,首先是自动化,即用人的思维和方式获取数据,提炼数据,第二步才用到机器学习的算法将获取的信息进行关联。”廖辰瀚称。
对于大数据公司而言,高质量的数据是根本。“目前对大数据市场造成困扰的还有一个主要方面就是,各家公司都在说自己有上亿数量级的数据,但却常常忽略这些数据的质量。”赵杰表示。
记者从一位征信业内人士处获悉,近两年大数据市场给人太多负面印象的原因在于,真正拥有高质量数据,且拥有数据分析能力和产品研发能力的公司数量非常有限。目前市场上有很多所谓的大数据公司,都是通过倒卖数据赚取差价的公司,而这些公司的数据来源,很多来自数据黑市。
“一些数据贩子由于没有任何加工能力,通过一些关系,掌握某类数据源,在不做任何加工的情况下,直接卖裸数据,赚取差价。由于这些数据通常都会不断更新,不断会有新的数据加入,也同时会有过期的数据失效,因此,只要稍加修改,又会变成一套全新的数据库,贩子们重复贩卖,从中赚取差价。”上述征信业内人士表示。
该人士称,“在贩卖的数据中,有些数据是合法的,有些数据是违法的。线上消费的、网银的、pos机的、信用卡的、运营商的、甚至是工商的数据都有人卖。除了一些企业本身会打包卖一些数据,也会有企业内部人员与外人勾结联手倒卖数据,即使是BAT里也有人出来卖数据。”
记者还从相关知情人士处了解到,数据贩子倒卖的数据很多都是脏数据,由于数据通常按量出售,为了把量做上去,里面往往只有30%的数据是真实的,而70%都是造假充量的假数据。“如果底层的数据都是虚假、不准确的数据,再好、再先进的分析模型也不可能解析出正确的结果。”赵杰对记者表示。
Maxent猛犸反欺诈CEO张克此前在接受第一财经采访时也表示,做数据能够有优势的企业,一定是控制了流量的公司,因为所谓的线上数据的来源都需要依靠线上流量,没有流量就没有数据源。而依靠买卖数据是肯定行不通的,只是在表层包了一个壳。
End.
转载请注明来自36大数据(36dsj.com): 36大数据 » 大数据市场乱象:用人工智能讲故事 低质虚假数据大量倒卖