数据观专访英国励讯集团(RELX)全球副总裁:数据没有百分百的安全 只能做百分百的防御
2015年从“励德·爱思唯尔集团”(Reed Elsevier)更名为“励讯集团”(RELX Group)堪为不折不扣的全球出版巨头:百余年的历史,每年超过100亿美元的营收,遍及科技、医药卫生、法律、税收及商业领域的专业出版业务……目前的励讯集团已成长为世界上最大的科技、医学、法律、商业信息服务提供商之一,在全球拥有超过3万名员工(其中约7000名为技术人员),遍布6大洲的34个国家和地区,为180多个国家的客户提供专业服务,其位列《金融时报》世界500强企业,英国富时指数排名第20。
应数博会组委会邀请,英国励讯集团(RELX)全球副总裁,律商联讯(LexisNexis)首席运营官Flavio Villanustre先生出席并参与了2018中国国际大数据产业博览会,数据观记者在数博会期间对Flavio Villanustre先生进行了专访。以下是访谈实录。
【数据观】 Flavio教授,感谢您接受数据观的采访。作为一家全球范围内专业和商业客户信息和分析服务提供商,励讯集团是如何处理繁复庞大的数据呢?怎样保护这些数据免于“安全问题”?
【Flavio】 励讯集团目前使用着15年前自主研发的大数据平台(HPCC-高性能计算集成),并在数据和系统中使用了安全控制体系,一方面确保数据的安全,另一方面又保护其他人的信息隐私。我们在数据系统中有许多安全控制组件和功能,特别是LexID的数据标签技术,对个人信息进行验证和标识。HPCC还提供了足够多的数据资产监控以确保如果一旦存在潜在危害,我们就可以知道这是一种攻击行为并对此采取相应的措施。当然,整个HPCC和Lex ID系统为了保护数据,减少数据和个人隐私的泄露,从数据收集和产生之初就开始运转,在整个数据生命周期内延续。
【数据观】 众所周知,美国马克•扎克伯格——全球最大社交网站Facebook的创始人,今年早前几个月因为用户信息泄露的丑闻跌入人生的谷底,此后全球很多政府、企业都采取了相应的行动来防止重蹈覆辙,RELX对此是否有相关新动作呢?
【Flavio】 显然数据泄露是每个行业的弊病,毕竟当下数据如同连城之璧。业内人士分析,数据即是新石油,它会带来更多的财富,更有甚时直接等同货币。所以,这样的“错误”一旦发生,就会有越来越多“首个……”的捣鬼。我们在实践中发现试图攻击的入侵者越来越多,而且其方式和技术手段越来越高超,因为某种意义上他们可以投入更多资金来获取数据。正如我之前说过的那样,励讯集团通过全面,专业的数据治理来保护数据,来确保证数据信息是百分之百安全的。
然而,即使你的信息今天确实相当安全,如果你没有进行持续监督,不去看所谓的威胁情报,不知道威胁区域或者破坏者正筹划什么阴谋,再加上如果你不积极地做风险威胁模型构建,究其根源设身处地分析和查找问题,那你根本百分之百的确保数据的安全。所以,要把业务中的每个环节和数据情况预放到研究开发的情境下,尝试着去思考破坏者如何设计有破坏力的“入侵”,这些“入侵”持续地且有足够仪器监控你的“反控制”,以掌握数据安全保护系统随着时间的推移是否一直有效。
你我可能懂得这样的道<embed src="https://imgcache.qq.com/tencentvideo_v1/playerv3/TPout.swf?max_age=86400&v=20161117&vid=s0673e8ti5h&auto=0" allowFullScreen="true" quality="high" width="480" height="400" align="middle" allowScriptAccess="always" type="application/x-shockwave-flash"></embed>理,这就像生活中的很多物品一样,如果你不积极地维护它们,时间长了它们就会变得百无一用。所以你需要让这些“管控”一直运转着,始终确保这些安全治理控件的有效性,很多时候,我们会周期性地做“管控”测试和审计。我再强调一次,于数据信息而言,没有完全的保证,更没有没有百分之百的安全。但是,你可以获得足够的安全保障,这将使破坏者们很难跨越数据访问来获取记录。
【数据观】 我们赞同“数据是新石油”的说法,同时我们每个人都应该勤于采取行动来保障数据安全。我们注意到,作为RELX的全球副总裁,您也兼任LexisNexis首席运营官,LexisNexis是RELX的一部分,它为保险行业提供了各种数据和分析服务,这部分的年收入超过了1亿美元,这是一个了不起的业绩,您愿意分享一下LexisNexis是如何使用大数据技术为保险客户服务的吗? 你们如何做出精准的解决方案或风险预测?
【Flavio】 这个问题问得相当好。遗憾的是答案很长,因为我要深入地谈到励讯集团保险行业解决方案。在保险整个周期中有很多环节,都是围绕保险业务全流程的需求设计和提供的,同时还要清楚哪些顾客。励讯集团是依据大数据、数据关联和分析,以及对保险行业的深度认知来提供针对每个保险环节的解决方案。从而有效地帮助保险公司获客,提高保险公司的收益、制定有效的保险业务策略和防范保险欺诈。
当然,保险业有一个有趣现象,至少在美国是这样,在全世界也都相当普遍:保险公司现在处在非常艰难的时期,因为他们有大量的线上竞争者。现如今,消费者并不一定会直接与自己所在城镇的保险代理人建立联系,他们随便上个网也可以得到至少50家保险公司的报价。所以这对保险公司来说非常关键——知道风险所在并加以正确引用,因为如果叫价太高,客户就会选择另一家保险公司。然而如果叫价太便宜,他们则会赔钱,因为保单太冒险了。
所以我们在自己的大数据平台上建立了大量解决方案,这是一个我们称之为HPCC系统开源平台的模式,我们使用这个平台来整合庞大而繁复的数据,通过平台集成数以万计的数据源。对于保险中的每一个阶段,我们提供了具体的解决方案,例如,从一开始围绕市场营销的解决方案。
因此,他们可以更好地为潜在客户在最短的时间,提供合适的报价。客户通过填写表格来要求保险公司报价,我们为保险行业提供保单预填的解决方案,使他们能够更快更准的获客。这种服务不需要客户全部手动输入信息,他们只需输入2到3个关键词,其余信息则会自动显示出来。
随着技术和公司业务的发展,为了提高我们评估风险的能力和水平,励讯集团建立了机器学习(AI)模型,用模型统计来确定特定保单损失和获客可能性,这样可以帮助保险公司评估特定保险单的合适价格,也可以用来检验是否存在保险欺诈行为,损失追溯。例如,有人说他出了车祸,确实是投保人发生了事故。保险公司赔偿损失后,是否还有可能追溯赔偿的损失吗?商务实践中确实有这样的例子:某些心怀不轨的人会制造事故来牟利,而他们不是真正的受保者。因此,我们所做的就是——确保保险公司能够依靠足够多的正确信息来做出判断,决定是否赔偿,这是关键。几年前我们就使用机器学习从非常大的非结构化数据池中提取信息并进行分析,创建图表并预测欺诈事件。这项工作让我们在过去的三十年里有了长足发展,一跃成为世界第一的信息服务提供商。
【数据观】 感谢您如此精道的阐述,我们豁然开朗。业内有一个说法是“强大的系统必然使公司强大”,想必数据处理是RELX的关键日常,您能为中国读者分享一下你们强大的引擎(数据处理系统)吗?。
【Flavion】 我乐意至极。这个问题可以追溯到2000年,大数据技术还没有被称为“Big Data”的时候,我们为满足自身使用而开发并建立了一个HPCC系统的大数据平台,该系统用于大数据开源处理和分析、大规模并行处理的计算平台。HPCC是我们整个集团一直在使用的核心技术的一部分,我们的每一个产品,每一项服务都建立在这个平台之上。在处理复杂模型,并需要扩展,以应用于大规模数据和多样化的数据集(结构化和非结构化)时,这一平台给我们带来了优势。在HPCC平台之上,我们以域专用语言的形式设计了自己的域专用抽象语言,例如复杂的记录链接工具——“可扩展自动链接技术”,以及将图像分析与机器学习能力相结合的“知识工程语言”。
在2011年,我们将整个大数据平台推出,成为一个自由开放的资源平台供其他人使用,目的是通过在其背后聚集一个更大的开源社区,继续发展、壮大、延续这种血脉。这让我们在整个过程中有了很大的创新。再者,从2011年,也就是七年前开始,其他平台都实行免费制,开放源码是许可或者完全许可的。你也许会问:任何人都可以使用它吗?任何人都能开发吗?答案是肯定的。这个平台为企业提供大数据处理能力,利用可叠加计算集成组及公共云对大数据进行复杂的处理,或者像我们一样集成所有数据。某种程度上,这是难以在一个跨集群的机器环境中实现的。
我们有一个核心流程,适用于整个业务范围——数据清洗与关联。包括所有的保险业务,正如我之前提到的,我们需要成千上万的数据源,我们整合,利用所有的数据建立围绕单个个体的单一数据源,这些数据来自不同的源头。很多时候,不同的数据集不一致,也许你会发现一些数据记录某个你认识的人居然成了别人,或者他生活在一个与你认知不同的地址,我们可以通过这种方式来识别和区分事实查缺补漏。那些自动丢失的倒置是关键点,我们谈论的是数万亿的数据集,数千亿的数据记录。
这样做的唯一方法就是建立机器学习。这是主要的机器学习算法,是基于概率数据推理的人工智能,它从数据中获取信息并试图计算出某些事物间相似的可能性。从本质上说,如果你获得了两个数据记录,它们都给你同一个姓和名,那么这两个记录指的是同一个人。通过经验判断,你知道答案可能是正确的。如果姓和名都非常独特,但是给出的姓名记录却很常见,那么它很有可能是错误的。
因此,在HPCC系统平台上运行的很多程序都能识别这种可能性并确定最终结果。以至于后来那些保单上的人对于赔偿的疑虑,最后都通过实体定义可以得知哪些情况符合保单协议里的属性,通过社交架构关联实体和属性来完成。
这给了我们一种了解世界的独特方式,同时也能提出问题。现在你可以说,这又回到了我们的汽车事故的例子:任何阶段都有可能发生事故,事故起因不同,而投保的人也不一样。但是针对欺诈案,如果你能把那些日期放在社交架构上,你可能会发现每一个事故都和其他的线索联系在一起,就整个家族来说,这些人都是有亲戚关系的人,这就为你提供了一个很重要的证据。要么是这个家族运气够倒霉,每一次都有事故发生,要么就是他们为了从保险公司获利而欺诈。
我们使用机器学习来描述企业和个人的整个网络,以识别诈骗团伙,该技术还可以用来评估和预测信用和保险风险,识别医疗保健相关交易中的欺诈,并帮助抓到犯罪分子。机器学习是我们所做的一切的核心。
【数据观】 您的回复令人印象深刻,即便我不是专业读者,我也想说您的这套系统真真是棒极了。时下,AI技术风靡全球,RELX是否在做相关研究或者开发了嵌入式应用程序呢?AI对于您这样的公司而言会形成一种威胁吗?
【Flavio】 是的,我们在人工智能方面还算活跃,详谈前,我觉得有必要重新定义下AI的概念。AI有两种类型,一种是未来人工智能,某种意义上来说,即机器学习或全民学习;另外一种叫AGI(人工总体智能 Artificial general intelligence),这是一种简单的机器,这就像《终结者》,尽管很多组织都在积极研究探索AGI,但我们暂无涉足。
我们尚处在一个初期阶段,所以讨论AGI这种能够独立思考的机器还为时尚早。但是AI作为一种实用的智能,它能给你的智能语音赋能,使你的自动翻译系统、世界搜索引擎或其他设备变得人性化。这是我们正在积极使用的,同时我们也研究了一些最基本的算法,也就是众所周知的关系金原子,我们利用它们来建立自己的风险预测系统。
一个人在很长一段时间内违约的风险是什么,这个司机发生事故的可能性是多少?我们可以用它来做一些我们称之为“行为”的事情。作为保险服务的一部分,我们已经取得了胜利,让司机在手机上使用一个APP为他们的“行为”做准备。基于此,他们可以证明自己是安全的司机以得到更优惠的保险价格。
有趣的是,这只适用于当前驾驶人为你自己的状态。但是当你坐上朋友开的车情况又会如何呢?所以这个系统会计算出你的驾驶画像,它会判断出你现在是在公共汽车、小轿车、出租或者在火车上,那就不是你而是别人在驾驶。所有这一切的人工智能现在更趋于传统回归模型,就像我一直强调的深度学习那样利用各种技术想努力达成,在某种程度上,它们模拟大脑皮层的工作方式,通过构建人工神经元网络来进行运算。
为了更高效地学习特定的东西,在AI的传统算法和机器学习中,你通常有样本或标签数据,从本质上讲,过去的事情都有结果。如果你正在尝试训练一种可能发生的事故风险模型,你可以用你过去事故信息来训练模型。
在每一个案例中,所有的数据都附加了事实,通过来自过去的数据即知晓这些人确实发生了事故,这些人有共同特征,并与各种保险事故联系在一起,这就是机器学习系统可以反映出来的东西,这个人工智能系统可以用来最终创建一个不在我标签数据里的新客户的风险预测。
机器学习改变了一切,让计算机提取这些事实,并通过基于统计方程的模型来表示现实。这极大地节省了域专家的时间,使他们能够使用人类采用其他方法很难处理的数据集。所得到的计算机程序更简洁,更易于实施,更高效。
深度学习允许你用更少的标记数据的样本构建模型。你可以建立相当有效的模型。我们只有很少的标签数据样本,但这非常有用,它们还可以帮助你更容易地识别数据结构。当你试图进行欺诈分析和异常检测时,它的作用就大了。
我们还与世界各地的大学进行了大量的研究,因为这个平台是开源的,它可以帮助开发一些模型拓宽领域。当然,任何开发出来的东西都是重新开放的,因此人们可以从中受益,它帮助我们突破极限,变得越来越好。
【数据观】 从刚才的谈话中我们获得了三个概念——“人工智能”、“深度学习” 和“机器学习”,某些时候人们会有所混淆,您能给出者三者之间的简要区别吗?
【Flavio】 没关系,我来给大家解释一下。机器学习相当简单,有两种方法来定义机器学习。其一是在传统的算法和传统的程序中,程序员通过手工定义每一个身份。在机器学习中,你给机器数据让它们从数据中学习,这听起来很复杂,但事实上没有那么难懂。这是一个线性模型,只是机器学习技术中的一种。
想象一下,我给你一个房子或公寓的价格,你可以去看所有的报纸,然后拿到过去10年里你所在城市的房屋销售价格。你只需要看一个变量,那就是公寓的大小,如果有一套一百平方米的公寓,它值一个价钱,而我有一套200平方米的公寓,也是这个价钱,你把这些数据画到一张纸上,X轴代表公寓的面积,Y轴代表价格。很快你就会发现这套更大的公寓在价格上具有优势。现在你可以在你的曲线上取号查询,给出一个大概价格来做估算和预测,这是最基本的机器学习,更多的机器能做出更惊人的统计和概率计算。对于你不确定的情况,它通过接收过去的信息,应用统计学计算出概率,这就是所谓的引导性学习。
在机器学习之前,通过算法进行建模时,要求人们了解特定的问题域,从现有数据中提取事实,并编写大的“启发式”程序,使用条件规则对输入数据不同的可能结果进行建模。这些早期的系统需要专家筛选数据以理解现实,并通过计算机可以理解的条件语句来描述它。这是非常乏味、辛苦的工作,最好留给计算机去做。
当我们谈到深度学习的时候,这和程序基本部分的区别是一样的,不再只是基本算法,它们与神经元的工作方式更密切相关,这些神经元有许多输入和一个输出单元,输出是所有输入的函数。
举个例子,如果所有输入不是悲伤就是哀愁,那么输出的不是贪婪就是怨恨。如果在某种程度上对输入进行减法,输出1或者零输入,我们就不会自寻烦恼了。如果你把这些毫无连接的神经元用相同方式连接起来,就有可能建立起一个非常复杂的系统,可以从数据中进行自我学习,就像你在公寓面积和价格上使用的那个小算法一样,现在我们在很多维度中都有学习。
这就是所谓的监督学习。你给它数据,它给你数据结构的提示,一旦你得到结果,可以在这里做标签。如果我给你看这张照片,它是什么?你也许会说,这是一个小男孩,那如果我再给你看这张照片,它其实就是一个手机。如果我用机器来做回答,机器会告诉我这张图片的类别,一类或二类。加上标签,我可以说一加一是男孩,一加二是手机。就像你教婴儿说话一样,你也可以教机器。今天市场上的语音助手中,诸如谷歌一类的性能都不错,这些大多利用了人工智能系统,还可以进行自动翻译或引擎搜索,更有甚者借助这样的系统在互联网上寻猫,它们深受欢迎。但它更像是未来。在学习中仍有很多积极的研究,某种意义上说,将来必会成为流行趋势并在全球范围内成为最大的挑战目标。就像我给你们的第一个,关系模型,很简单,让你们可以很容易地解释。如果我问你,这个房子哪里值得我花钱,在你能解释之前我又没见过,我就出两千美元。但是由于那幅涵盖房子的面积和价格的曲线轴,现在我们可以清楚地估测价格。
在深度学习网络中,这是很难做到的。管道网络又称自然随机性,意味着它们的不确定性。当你从头开始建立一个网络时,如果你把所有的神经元都放在一个基准零点,现在你想要击退它,那你就什么都学不到。它学习的唯一方法是给随机物体的神经元发出第一个随机噪声,完全随机意味着没有简单的方法可以追溯。这是当今最大的挑战之一,需要一段时间来达到成熟。
(数据观 黄玉叶)
责任编辑:陈近梅