微众银行首席AI官杨强：联邦学习，重塑金融范式

雷锋网 • 4年前扫码分享

我是创始人李岩：很抱歉！给自己产品做个广告，点击进来看看。

2020年8月7日-9日，第五届CCF-GAIR全球人工智能与机器人峰会，于深圳隆重举办。此次峰会由中国计算机学会主办，香港中文大学（深圳）、雷锋网联合承办，鹏城实验室、深圳市人工智能与机器人研究院协办。

在8月9日的「AI金融专场」中，《AI金融评论》邀请了6位最具代表性的顶尖AI金融专家，分享能够代表未来10年风向的智能技术方法论、产品逻辑和风险管理理念。

首先登场的，是微众银行首席AI官杨强教授。联邦学习和隐私计算，是今年所有金融巨鳄和科技寡头们，都在重点布局的重要技术方向。作为这一领域的全球领军人物，杨强也在会上带来了他在前沿研究与产业应用的真知灼见。

以下为杨强教授演讲全文，雷锋网AI金融评论做了不改变原意的整理：

先简单介绍一下，微众到现在有五年的历史了，目前有大概两亿的个人用户，还有将近百万的小微企业用户。这么短的时间可以获得这么大的用户群，应该说很大程度上是取决于技术上的创新，包括云计算、大数据和人工智能。

其中一大亮点就是做连接，把不同的企业连接成一个生态。在这个过程当中，AI是不可或缺的——正如今天的主题：AI到底在金融界能起到什么作用？

我们在很短的时间内汇聚了很多人才，这些人才主要在四个方面把互联网银行大致规模化、模型化了。这四个团队把微众银行内部和外部的业务过程、经验总结成了模型，这些模型可以供应给其他行业一键下载、一键装配，比如可以做营销、服务、资产管理，把金融的前台和后台都包括了。

迁移学习和联邦学习也是如今比较突出的两项技术，可以把整个金融业务再往前推进一步。

微众银行首席AI官杨强：联邦学习，重塑金融范式

我们可以把未来的银行想像成从左到右的流程，最左边的是获客，这是任何企业都需要做的，要找到有价值的客户，对客户进行安全评估、风险信用评估，尽早发现可能的欺诈行为。

评估办法之一是参考央行的征信数据，但国内很多人没有征信数据（信用分），而且它只是一个维度，所以我们需要把维度变得更加丰富。

还有运营、监管、对沉睡用户的唤醒、7×24小时的客户服务，里面都有人工智能的影子。

分布性数据隐私保护、联合建模的挑战和需求

在所有这些过程当中有一个主线：如何能够顺利把尽量多的数据用起来。

我们联邦学习的宗旨是数据不动模型动，这是一个做法，目标就是数据可用不可见：数据可以用，但是别人的数据我是见不到的，所以可以把数据加入到生态里面来共同建模，一些散乱的小数据就可以成为虚拟的大数据，这是我们的思想。

这个思想的初衷其实是，现在很多行业并没有真正意义上的大数据，像在金融里面有很多的数据，其实是黑天鹅现象。比方说在反洗钱应用中用于模型训练的洗钱案例，其实数量并没有想象中那么多，还是属于少数现象。这种数据拿它来训练，效果不是很好。

如果要用人工智能改变很多行业的话，其实都没有高质量、有标注、不断更新的数据。

第四范式公司在实践当中就发现，如果要为大额贷款做一个营销模型或风控模型，数据往往是在上百例以内，这点样本是没有办法训练一个好的深度模型的，所以他们的做法是从小额贷款到大额贷款做迁移学习。

每个人也都有手机，手机都是联到云端的，每个手机上的数据，每时每刻都在更新，都有新的图片、新的声音、新的文章可以点击，每个手机上的信息又是私密的，如何保证私密不传出去，又能让云端的大数据模型得到更新呢？

大家都熟悉无人车，比如有一千辆无人车，每辆车见到的数据都是有限的，我们能不能让一千辆车的数据汇聚成一个虚拟的大数据，同时又不暴露某个车看到的某个场景？

这就是分布性数据隐私、联合建模的挑战和需求——能不能把小数据聚合起来成为大数据？

微众银行首席AI官杨强：联邦学习，重塑金融范式

问题是，现在监管和社会的要求也非常严格，老百姓、社会对于技术工作者的要求是首先要保护隐私。政府也纷纷立法，比如欧洲建立了GDPR的数据法规。微众银行首席AI官杨强：联邦学习，重塑金融范式 | CCF-GAIR 2020

我们国内也有相关的保护法，在国家层面、地区层面，大家都在探索类似于、甚至更加严格于GDPR的数据法规。所以，简单粗暴地把数据从A传到B是违法的。

透视联邦学习

联邦学习，“邦”的意思是每个实体参与者地位都是相同的，无论大小，提供的价值才是他们存在的意义。“联”就是用一种方式把它们联起来，把隐私保护起来，同时又可以做一些有意义的事情。微众银行首席AI官杨强：联邦学习，重塑金融范式 | CCF-GAIR 2020

用一个简单的例子来解释：假设用一只羊来类比机器学习模型，草就是数据，我们希望羊吃了草以后能够长大。

过去的做法是，把草买到一起来建立模型。比方说左边的模型，左边的箭头是指向羊的。羊不动，但是草被购买到中心。相当于简单粗暴地获取数据，形成大数据，来建立模型。

但我们希望能够保护各自的隐私，所以让草不动，让羊动。这样羊既能吃那个地方的草，主人又不知道到底吃了哪些草，久而久之羊就长大了——这个就是联邦学习的新思路，就是让草不出草场，本地主人无法知道羊吃了哪些草，但是羊还是长大了。

这个思想的关键是，当我们的模型从一个地方传到另外一个地方的时候，要传尽量少的东西，同时传的模型参数要被加密。图右这些带有一个框的W就是加密的意思，在本地加密，就只能在本地解密。

现在有一种穿透式的加密，把所有的加密包放在云端的时候，还可以对它进行更新操作。比如对这个模型的集成更新，用集成学习。

谷歌就提出了“对模型联邦平均”的做法，还有其他比较复杂的方法如神经网络等。

这种做法分两种数据格式，一种格式是把样本分割，放在终端，像图左边所表示的一样，这是横向联邦。

微众银行首席AI官杨强：联邦学习，重塑金融范式 | CCF-GAIR 2020

还有一种是纵向联邦，沿着特征把数据分成几块，每一块属于一个机构。比如有两家医院，双方数据可能在用户上有很多重叠，可是在特征上面没有很多重复。比如其中一家医院做的是胸片，另外一家做的是核酸检测，如果联合就可以做更好的模型。

微众银行首席AI官杨强：联邦学习，重塑金融范式 | CCF-GAIR 2020

但出于隐私或利益等原因，他们不愿意互传。这时就可以用如图所示的方式，可以让一方的数据在加密状态下传到另一方，参与模型更新，重复多次后得到最优化的模型。有新用户的时候也是通过加密传输，使中间结果得到运算。

纵向联邦适合to B的场景，横向联邦适合to C的场景。谷歌用的比较多的是横向，我们微众用的比较多的就是纵向，当然也有混合的用法，横向中有纵向，纵向中有横向。

微众银行首席AI官杨强：联邦学习，重塑金融范式 | CCF-GAIR 2020

在座的朋友们可能会问， 联邦学习跟以前的分布式AI、参数服务器、联邦数据库有什么区别？

过去，分布式AI和联邦数据库里面，数据的形态、分布、表征都是一样的，是同类的。在联邦学习里面，它们可以是异构的，特征不一样，分布也不一样。从机器学习的角度来说，更加复杂。

微众银行首席AI官杨强：联邦学习，重塑金融范式 | CCF-GAIR 2020

同时，隐私保护是第一性的要求。过去，分布式AI和联邦数据库都是在一个数据的功能下，把数据分布在不同的数据库，目的是并行计算、提高效率。但是现在数据本身属于不同的属主，所以需要做加密情况下保护隐私的计算。

可能还有听众想问， 假如在多个参与者中，有一个参与者是坏人怎么办？ 他在努力猜你的数据，甚至在做数据的“下毒”，比如故意标注一些错误的信息，就有可能把最终的模型变成对自己有利的方向，这也是有可能的。

如果原始数据是0，在OCR的场景下，另一方可以不断地接受对方的梯度猜出对方的数据。如果百分之百地采用同态加密，用联邦学习的方法，这种情况就不会发生。

联邦学习的特点是引入了生态的维持机制，也就是经济学机制。如果要让联盟能够持续下去，每个参与者都要感觉到作用和收益是成正比的，这就要引入经济学或者博弈论的机制来保证持续的平衡点。

总结一下，其中有很多工作要做，包括安全合规，这是跟法律层面、跟政府层面合作；有防御攻击，还有算法效率，技术应用、还有激励机制，要引入很多经济学家的工作。

微众银行首席AI官杨强：联邦学习，重塑金融范式 | CCF-GAIR 2020

举个例子，因为联邦学习是一个大的框架，所以有各种各样落地的场景。比如推荐场景，大家用抖音、用头条、用电商，这个时候都离不开个性化的推荐，但是推荐是数据越多越好。

如果数据来自不同方，过去是把数据买到本地来进行推荐模型的建立。可以用联邦学习来解决这个问题，这个做法是“联邦推荐”。最近我们把联邦推荐的算法应用在广告推荐的场景上，用各方的数据，最后广告推荐的场景可以个性化，但是数据可以不出本地。

联邦学习如何为金融发挥作用？

应用在 信贷和征信系统 ，我们希望利用大数据建立360度的用户和企业画像，参加建立更好的征信。但是联邦学习出现以前都没有很好的技术，大家都不参与到这个生态里面，担心自己的数据被偷走。用了联邦学习以后就可以做这个尝试。

微众银行首席AI官杨强：联邦学习，重塑金融范式 | CCF-GAIR 2020

比如这个尝试是一家银行和票据公司的合作，数据都不出本地，银行所提供的是这个用户贷款的关键数据，合作企业提供的是企业的交易数据，这种交易数据为企业的活跃度提供了很多的信息，这两个数据进行联邦，可以让坏账率大幅度降低。

微众银行首席AI官杨强：联邦学习，重塑金融范式 | CCF-GAIR 2020

应用在计算机视觉，每个库房都有很多摄像头监控本地的库存，可以用不同视觉公司的监控数据进行供应链联邦。

更多跨领域的应用，比如监管和银行、互联网和电商、互联网和医院，都可以进行联邦。

微众银行首席AI官杨强：联邦学习，重塑金融范式 | CCF-GAIR 2020

建立这样一个生态，离不开行业标准。我们推进建立的IEEE国际标准这个月也会出台，国家层面也有标准。我们也推出了开源软件FATE。

我用微众银行的典型案例进行总结，刚才说的联邦技术贯穿了所有前台和后台。比如 智能营销 ，引入联邦学习以后，可以把不同的数据源结合起来，让营销提高点击率。

微众银行首席AI官杨强：联邦学习，重塑金融范式 | CCF-GAIR 2020

特别受关注的是点击之后用户有没有转化、有没有变成你的用户，这个过程需要更多的数据支持，这些数据往往来源于合作者，利用联邦学习的效果可以大幅度提高20%以上。

反欺诈方面，可以在人脸识别、语音识别方面都可以大幅度提高效率。

微众银行首席AI官杨强：联邦学习，重塑金融范式 | CCF-GAIR 2020

风控方面，也是利用大数据把金融公司和非金融公司联成生态，大家在这个生态里面进行数据价值的交易。

微众银行首席AI官杨强：联邦学习，重塑金融范式 | CCF-GAIR 2020

还可以利用另类数据，比如把卫星数据、电信数据、非传统财报数据联合起来，可以实时为投资者服务。

微众银行首席AI官杨强：联邦学习，重塑金融范式 | CCF-GAIR 2020

如何唤醒沉睡的、有价值的用户？也可以用联邦学习识别这个客户有没有重新跟你合作的意愿。我们的经验是在当前这个经济形势下，是非常好的金融场景。

微众银行首席AI官杨强：联邦学习，重塑金融范式 | CCF-GAIR 2020

7×24小时的机器人服务，微众现在有98%以上是机器人在做后台服务，包括对话系统、客户服务、服务当中的监管、质量检测、智能监控、反洗钱，把细碎的小数据联系起来，变成可用数据。

微众银行首席AI官杨强：联邦学习，重塑金融范式 | CCF-GAIR 2020

以上就是我们的经验和总结，谢谢大家。

雷锋网雷锋网雷锋网 (公众号：雷锋网)

。