万字长文丨微众银行严强:数字经济时代,隐私保护的道与术

雷锋网  •  扫码分享
我是创始人李岩:很抱歉!给自己产品做个广告,点击进来看看。  

数字经济时代,我们一边享受着数据爆发式增长带来的便利,一边也困在数据安全中难以自拔。小到诈骗短信、快递信息,大到财务状况、健康状况、网络足迹,我们的个人隐私数据面临着前所未有的挑战。

而对于银行来说,数据安全更是一条“生命线”。一次事故的发生,可能造成亿万级的损失,数亿家庭将受到影响。

值此跨年之际,雷锋网 (公众号:雷锋网) 以「线上云峰会」的形式,邀请数字化风控、数字化营销、数字化客服、数据平台、数据中台、数据安全、数据库、银行云、银行RPA、银行业务系统,十大银行赛道里的科技专家,分享他们对于银行科技的理解。

在「数据安全」这一赛道,我们邀请到微众银行区块链安全科学家严强博士,他将从技术、业务、合规等角度,分享他对于银行「数据隐私」的理解。

核心观点:

  • 数据生产者与数据消费者之间不再是“买卖”关系

  • 隐私保护技术是打破数据价值融合“零和博弈”的关键

  • 我们需要尊重“数据孤岛”作为数据产业的原生态

  • 发展健康的数据产业生态,我们需要打通隐私数据协同生产的“双循环”

  • 区块链是承载数据信任和价值的最佳技术,对于隐私计算和AI应用中常见的数据品质等难题,都可以通过区块链进行互补或提升效果

以下为严强博士的演讲内容,雷锋网AI金融评论作了不改变原意的编辑:

大家好,我是来自微众银行区块链的严强,今天很荣幸受到雷锋网的邀请,在此和大家分享数字经济中关于数据隐私的一些思考。

数字经济中最核心的要素就是数据,对于很多业务而言,要获取高质量的数据是首要要务,近几年的趋势是,对于数据隐私的立法正在不断的细化、完善。

而此时传统的数据业务,在这个过程中就可能不太适用。

新数字经济时代的数据之道,在新的数据隐私合规框架下势必将发生显著变化,这些变化对实际的行业有哪些影响、有哪些具体改变?以及为了应对这样的改变,有哪些技术手段可以更好地调节自身?

新数字经济时代的数据之道

首先,本次分享的第一部分——新的数据之道。

万字长文丨微众银行严强:数字经济时代,隐私保护的道与术

本次云峰会的主题是AI,众所周知,AI在很大程度上依赖于数据,对于数据本身,根据业务形态的不同,历史上也出现了多种提法,包括了大数据、小数据、暗数据、还有弱数据,现在还有另类数据,指的是像卫星地图或者其他的一些传感器的数据。

显而易见,作为我们在信息化、设计智能化的过程中必要的燃料,如果没有数据,很多业务将无法得以开展。

同时,我们也注意到,AI算法或者其他大数据算法发展至今,相对而言还是比较成熟的。所以,对于行业中的参与者来讲,很多时候核心竞争力就体现在于掌控数据量的多寡。

万字长文丨微众银行严强:数字经济时代,隐私保护的道与术

也正因为如此,新的立法也对获得数据和使用数据进行价值发掘的过程产生了显著影响。数据不再是纯粹的一种信息表达,因为新的立法框架引入了一个新的概念——数据权益。

虽然目前数据安全法还只是处于草案的状态,但是草案明确提出要关注数据本身的使用,需要在保护公民组织、相关权益的前提下,促进数据为关键要素的经济发展,以此增进民众福祉。

同时,反观国际社会的《GDPR》,它对数据的使用,尤其在数据在商用领域的使用提出了一个非常严格的要求,其中的一点,就是惩罚特别高,可能是4%的集团前一年的全球总收入,或者2000万元两者取其大,所以数据隐私的违规成本十分高昂。

数据权益代表了数据的权利和利益,对传统业务影响特别大的一点,就是这里的数据权益不仅仅是作用在数据的收集阶段,还贯穿在数据流转的整个生命周期,包括数据的使用、存储、数据的遗忘。

这些改变显然会对现在的行业产生很大的影响,尤其是数据已成为一个不可或缺的生产要素,在大数据、人工智能算法都很成熟的条件下,是智能化进展的必不可缺的一个手段,但是如果缺乏数据应该怎么办呢?

万字长文丨微众银行严强:数字经济时代,隐私保护的道与术

在回答这个问题之前,我们必须要厘清一个关系,在新的数据之道中,数据生产者跟数据消费者之间的合作关系发生了一个本质性的变化。

在立法之前,二者之间很多时候是买卖关系,在获得数据之后,就可以对其进行加工、利用,或者是提供服务,获得完整的收益。

对数据生产者或者是用户以及其他的供数机构而言,在数据授权或者数据公布之后,它很多时候并没有权利对后续的数据使用直接进行干涉,这个权利之前是不受法律保护的。

而在新的立法框架中,两者之间已经从买卖关系转变成了租赁关系。

这就意味着,作为数据生产者,从来没有放弃对自己数据的权利,哪怕在对方的平台上使用了对方的服务,在这部分产生的数据仅仅是以租赁的方式提供给对方。

目前很多APP都完善了隐私政策,披露并承诺了数据的使用方式,这也是数据使用租赁关系的一种体现。

平台或服务方不再拥有数据的所有权,而是需要跟数据的生产方协定如何使用数据,包括收益权怎么进行分配。

除了分配的问题之外,最重要的一点——作为数据生产方,它实际上有权干涉或禁止自己数据的使用方式,以控制自身的隐私风险、拒绝不公平的利益分配方式,这就是对业务或行业而言,一个最大的改变。

万字长文丨微众银行严强:数字经济时代,隐私保护的道与术

在新的法规下,具体要达到一个什么样的要求?为什么这个要求很多时候会引起热议?

《个人金融信息保护技术规范》中,对隐私数据生命周期的6个阶段进行了描述,从收集、传输、存储、使用、删除到销毁,每个阶段都会有不同的数据权益保护的要求,其中也会涉及到一些不同的技术规范。

同时,换个角度,整个隐私合规范畴下的数据权益可以被分成两类,除了对传统目标——数据内容的保护,还增加了一类是对数据权利的保障。

正是后者,可能会对于业务产生较大的影响,具体包括数据遗忘权、限制使用权等等。

万字长文丨微众银行严强:数字经济时代,隐私保护的道与术

由此就带来一个焦点问题——业务创新和隐私保护如何兼顾,仔细分析之后,也许他俩之间并不是一对不可调和的矛盾。

在新的法规生效之前,假定业务所用的数据是一个饼,在法规生效了之后,这张饼变小了,因为用户本身已经不是原来的买卖关系,演变成为租赁关系,有些用户可能行使了权利,或因数据收益和隐私风险不对等,不愿意再贡献出数据。

此时,对应业务的可用数据量变小了,数据价值随之变小。这里就可能出现为保障数据权益,影响了业务规模的零和博弈困局。

但是,如果我们提升一个层面,在行业的角度上来看,这里的零和博弈并不是绝对的。

纵观这个行业,在法律法规生效之前,实际上已经出现了数据区域化导致的“数据荒”。大量的数据可能已经在一些大机构中汇集,而对于中小企业来讲,想要获得数据是非常困难的。

一个典型的例子,就是对网络爬虫的限制。

在那些有利益冲突的大机构之间,他们开放数据访问的意愿很低,而对于整个数字经济而言,数据的流通本身就已经处于一定程度的受限状态。

如果能够盘活所有的存量数据,打通在大机构或者在更大范围里的数据源,让其更好地流通起来,就能把饼做大,产生更大的价值。而实现这一目标的关键在于引入技术手段,有效保障隐私数据的权利。

具体到AI和大数据,就需要从传统的集中式算法系统升级到隐私计算,在新的数据之道中,打消数据协作参与者的隐私顾虑。

数据隐私驱动的行业巨变

隐私立法的完善和用户隐私意识的觉醒造成了深远的影响,不仅改变了原有的数据之道,对数据业务带来不同层面的变化。

万字长文丨微众银行严强:数字经济时代,隐私保护的道与术

先说技术面,早期在谈到隐私保护时,很多时候仅仅是加密,对数据进行脱敏,在数据处理阶段做了一些工作,就被看成是对数据有非常强的隐私保护了,但是,放在AI或者隐私计算大的环境里来看,实际上是不完善的。所以,在技术层面上,我们如果真的要去落实,实际上需要引入更多的前沿技术。

业务层面,现在越来越多的用户意识到数据本身是有价值的。对于隐私而言,他对自己个人的风险的认识也越来越全面,这些因素势必也会影响用户的行为,对基于数据的AI的业务产生影响。

合规层面,合规主要是指新的合规业务,尤其是全生命周期的合规要求,需要对现有业务模式进行一些改变,否则一旦涉足海外市场,难免会遇到合规风险。

以下,在第二部分,将分技术、业务、合规三个层面进行具体展开。

万字长文丨微众银行严强:数字经济时代,隐私保护的道与术

先看技术层面,这里非常重要的一点就是信息化技术发展得很快,产生的数据会越来越多,尤其是现在大家都在谈5G、物联网。

什么概念?目前,现在很多的数据都是以人为单位,每个人会产生很多数据,但是,在5G、物联网普及的时候,很多时候数据产生的单位是以物品为概念的,不再受限于70亿人口数量的限制,上万亿的各种智能设备,其中必然会产生海量的数据,并具有不同的权属。

对应地,便引出了“数据孤岛”问题。一些看法认为,因为有合规要求,所以才会产生孤岛。因为合规需要对这些数据进行保护,我们不能让它互通,但实际上这个说法并不那么确切,既然承认数据有价值,也应该承认“数据孤岛”是原生态。

举个例子,比如资产是有价值的,不会随随便便要求大家把自己的资产共享出来,虽然在学术论文中也有资产孤岛的提法。所以很多时候我们需要尊重这些“孤岛”的存在。

从技术层面上需要怎么做呢?这里有几个关键词——多方、海量、高维、异构。

对于后三者,大数据、传统AI发展了这么多年,都有比较好的解决方案,但是,唯独多方目前还有很多挑战。

为什么?不妨看看多方隐私大数据需要实现的效果。

万字长文丨微众银行严强:数字经济时代,隐私保护的道与术

最典型的效果之一,便是数据不出库,这是一个非常形象的说法,但其本身并不确切,因为数据不出库并不代表隐私信息不出库,不代表敏感信息不出库。

打个比方,在一个发布会上答记者问,提问某某是否为敏感人群或敏感事件,主办方回复“对此我方无法进行评价”,很多时候提问者可以依据回答的语气和用词可以做出一个主观的判断——大概率还是敏感。

数据业务也是如此。

数据不出库,字面意义就是数据明文不出库,传统的几个方案包括数据哈希出库、数据加密出库、数据脱敏出库,在AI领域,模型梯度出库,这些方式是否真的安全?

更传统的方式如内容打码 、K匿名、差分隐私都可以用上。这里强调一点,每一种方法的能力都是有边界的,实际上都需要一些配套的安全假设。

举个差分隐私的例子,在2013年和2018年计算理论顶会上,分别有一篇论文分析了差分隐私在处理高维大数据上的理论局限性。标题是如果我们要处理高维大数据,这是一个计算困难性问题,计算困难性问题意味着很多时候难以实现,所以差分隐私也是有能力边界的,我们需要根据实际的业务场景选择是否适用。

万字长文丨微众银行严强:数字经济时代,隐私保护的道与术

数据不出库只是一类手段,我们最终的目标效果是什么?可用不可见?

值得注意的是,“可用不可见”只是一个小目标,还有很多问题没有得到妥善解答,比如谁可用谁不可见,限定用途的使用次数、使用方式有没有限制,对于数据的主体,能不能对可用不可见的方式进行控制。

很多时候在数据协作时,尤其是在AI的学习中,结果正确性如何验证也是一个非常重要的考量点。现在很多智能化的业务也涉及到一些相对而言比较敏感的服务,会导致比较敏感的后果,如果误判了怎么办?如果进行多方协作的结果不正确,如何找出恶意的参与方?这些问题“可用不可见”都没有直接回答,所以它只是一个小目标。

万字长文丨微众银行严强:数字经济时代,隐私保护的道与术

为了实现我们的大目标,刚才提到的哪些额外的数据隐私保护点:不仅仅是需要一类技术,还可能需要融合多类技术,并针对不同场景进行优化。

三个主要的技术路线如下:

TEE可信计算。 TEE的优点是它本身是个硬件加速的隔离环境,在计算上没有任何限制,什么业务都能跑,而且开发很友好。但是从设计上需要一个中心化的部署方,它只能有一个可信根。而且目前主流的云厂商并不支持TEE的云部署。

所以大家在实际部署上会不可避免的回到物理部署的范畴,在实际的使用中会有一些阻碍。

相对于可信计算而言,联邦学习和安全多方计算对硬件的依赖则小很多,但同时也有一定的取舍。

联邦学习 ,擅长各类模型的联合训练跟推演,与现有数据业务协作模式十分贴合。

安全多方计算 ,是一个相对历史悠久的技术,近五六年来有很多比较成熟的工业方案出现,尤其在学术界,目前更关注的可用性问题也得到了很大的提升,同时支持各类通用计算和各类安全模型,比较独特的优势是它可以支持恶意模型。

什么是恶意模型?如果有多个参与方一起去做模型训练或联合推演,只要有一个人做恶,就一定能在第一时间或者在最后结果产生之前终止运算,由此避免做恶方影响最后结果的正确性。

在关键的业务场景中,这是非常有必要的,作为取舍,其性能相对会低一些。

回到隐私大数据,海量、高维、异构、多方,如何很好的支持它们?如果出现争议,尤其是在关键业务中出现争议,怎么高效识别作恶的计算参与方,这些都是需要我们在技术上应对的挑战。

万字长文丨微众银行严强:数字经济时代,隐私保护的道与术

下一个就是业务层面的挑战,如果一个业务要采用机器学习,隐私计算,以及相对而言比较智能的数据驱动方案,这里有一些重要的考量点。

如果是咨询公司给的报告,一般有两个维度,一个是商业价值,另外就是成熟度或者可信度。

特别推荐大家关注的一个新维度,就是数据隐私相关风险。

如果设计一个多方协作,在整个协作过程中会不会产生严重的隐私风险?或者不只是模型训练,我们使用的模型推演或者其他的通过隐私计算产生报表类的一些功能。如果因为有一方作恶,产生了一些错误的结果,后果的严重性如何?

这一新维度会直接影响用户体验,如果是应用在民生领域或者金融领域,有些服务非常敏感,如果机器误判,后果对于当事人而言可能是相当严重的。

这也带来一个重要的关联问题。如果用户或合作机构有隐私顾虑,是否存在技术手段影响现有的业务系统,造成额外的隐私风险。

这里具体列举了几类风险。

如何利用一些攻击的手段,针对现在一些联合的学习的训练或者推演,如果攻击者在联合模型训练时,它是否能够推测出合作方的隐私样本数据,或者在训练过程中是否能够注入对己方有利的偏见。

同时,不仅是针对训练,我没有参与的推演,训练我能不能在推演的时候去提取出你相对训练的隐私数据,或者推演我能否操作你推荐的结果。

从数据安全角度而言,这些都是很关键的问题,普通人很多时候可能是难以实施的,因为机器学习也好,隐私就本身就是一个相对比较前沿复杂的技术,所以——对抗魔法需要使用魔法。

万字长文丨微众银行严强:数字经济时代,隐私保护的道与术

风险一:这是一篇 CCS发表于2017年的论文,这些攻击本身可能是一个实验性质的,但具有一定的借鉴意义。

这篇论文的结论:只要是联合训练,如果能够得到明文梯度,就一定能够或者有一个极大的概率可以获得合作方的隐私数据。

原本可能认为通过联合训练出去的只是模型梯度,并不直接包含隐私数据,但是由于攻击方也使用了机器学习的算法,用了一个生成对抗网络的GAN的技术,从梯度信息还原出合作方的训练样本。这个实验中主要针对深度神经网络学习,实验中展示的还原成功率还是相当高的。

论文同时也指出,即便额外使用了全局差分隐私,对攻击结果影响不大。

从PPT截图中,可以看到作者从梯度还原出了对方的训练样本照片,而且在使用差分隐私之后,还原出的照片跟原本的照片实际上差距也不是特别大。所以从业务层面来说,这还是一个比较显著的风险,大家需要警惕。

万字长文丨微众银行严强:数字经济时代,隐私保护的道与术

风险二:如果共同参与一个联合模型训练,是不是有可能注入偏见?答案是肯定的,但是需要多大的代价?

这是2018年一篇发表在S&P上的顶会论文,指出在某些线性回归模型中,线性回归模型在很多风控或者类似的一种预测模型中还是用得比较广泛的,因为具备良好的解释性。作者展示了,只需要12%的恶意样本,就可以引起显著的预测偏见。

跟直觉上可能需要50~ 60%或者过半的样本非常不一样。

这里采用的也是魔法对抗,但并不是随机注入样本,因为参与联合训练时,参与者对模型本身是有认知的,所以涉及到一个优化问题,通过优化尽量减少产生偏见所需要的样本比例。

因此,我们在做联合训练的时候,也要将其考虑进去。有没有可能有一个参与方只贡献12%或者更低的数据,但他试图导致偏移整个模型的效果?在没有动机时的风险比较低,但是如果有动机我们则需要加倍小心。

万字长文丨微众银行严强:数字经济时代,隐私保护的道与术

风险三:没有参加模型训练,只是使用API,能不能猜出对应的隐私数据?作者提出了一个很重要的点,答案是有可能。

论文中的实验展示了,在一个神经网络中,只要拿到输出的标签,很多时候就能预测的结果,结合它的置信度和网络的结构,就能够推测还原出训练对应标签的样本。

比如得到的标签是张三和置信度,很多置信度是有小数点的,例如0.837,然后我就通过它的一个类似的优化算法,做一个还原重建,最后能够相对好的还原出这个样本。

跟之前相比,因为之前是直接拿到梯度的,而现在没有拿到训练的梯度,效果稍差一点,但是也可以很容易识别出左边跟右边的照片是属于同一个人。

作者做了两组实验,一组是对于神经网络的,另外一组是对于决策树的,决策树在很多风控模型中也有。很有意思的一点,就是拿决策树做风控模型会不会被别人反推出我们的训练样本?

如果给出来的置信区间的精度足够高,还是有很大的概率可以推测出来,决策树在论文中甚至实现了一个黑盒的效果。

什么是黑盒效果?我不知道你的决策树的样子,只知道你的最后的结果跟输出的置信度。我通过不断的查询,最后反推出你实际的样本。但我们也具体应对方式,对模型API进行安全加固。

万字长文丨微众银行严强:数字经济时代,隐私保护的道与术

风险四:不再是想推测出训练样本,但是想操纵最后的推演结果,可不可行?可行!

这篇论文讲的是,如果要在人脸识别系统中假扮另外一个人,最少需要什么?答案是需要这样一副眼镜,这副眼镜不是随便产生的,它是通过类似的机器学习算法,一个比较偏统计的黑盒优化算法得出来的。

对于同一个人,查询API 25次,通过其返回值,做一个黑盒的优化,逼近其特征值,在原有的脸部的图像做一个修正,最后就产生了这副眼镜上五彩斑斓的样式,在作者的实验中实现了100%的伪装率,只要戴一副眼镜,可能被识别成另外一个人。

同时,只要戴一副眼镜,基于机器学习的人脸检测就可能失效。

由此可见,这些风险是客观存在的,所以我们不仅要考虑算法的智能性,很多时候还是要全面考量安全加固措施,否则就有可能引入意料之外的业务风险。

万字长文丨微众银行严强:数字经济时代,隐私保护的道与术

最后一个层面——合规面,合规面相对而言还是一个比较新的概念,一年前,大家还在争论通讯录、头像数据的归属,现在明确都是属于用户的。

不仅如此,用户在使用的过程中有很多环节,有些特殊环境有特殊的合规要求。

其中特别想谈的两点,就是限定数据用途跟数据被遗忘权,限定数据用途就是我给到你一个数据,只能用于广告推荐,你如何保证只能用于广告推荐,要在合规的框架下,不是用户来自证,而是企业来自证,这对整个技术方案或者基础设施是有要求的。

因为企业没法自证,在用到数据时要告诉用户,具体算法和系统在设计上的用途。

另外就是数据被遗忘权,现在分别来看二者的影响。

万字长文丨微众银行严强:数字经济时代,隐私保护的道与术

限定数据用途,是一个大改变。我们原来很多系统平台都是明文学习的,现在很可能要转向密文学习。这里有一些过渡方案:

比如可信计算,相对而言改造成本比较低。因为它是一个容器化的隔离计算的方案,一个项目被称作阅后即焚,90%以上就是可信计算。

这里也有个问题,我们需要找到一个可信的第三方,因为这个容器本身的真实性、可靠性或者它的隐私性,需要一个中心化的可信机来保证,然而它是一个单点的,很难做到多点,如果我们多方协作中找不到可信的第三方,整个业务就会很难推进。

所以,在多数情况下,我们会更倾向于联邦学习和安全多方计算。

万字长文丨微众银行严强:数字经济时代,隐私保护的道与术

第二点,被遗忘权,这也是因为合规产生的一个新需求。什么是被遗忘权?

很多时候用户是流动的,例如用户今天在平台上注册,但是过一段时间后因为种种原因而注销了账户,这是一个非常关键的点。

用户一旦注销,作为企业方,就需要删除用户数据对现有业务模型的影响。

但很多时候这模型都是一个非常复杂的过程,一个用户的数据可能会涉及到模型的很多方面,想完全的消除特定用户数据的影响是很难的。

目前非常确定的合规的解决手段就是重建,我们把原来的数据、原来模型推倒重来,这样就会保证没有用到被删除用户的数据,但是对业务的影响也很大。

这里还有一些其它的思路,我们能否去将模型进行模块化,每次尽量只更新用户相关的一些数据,然后再引入迁移学习等手段来试图减少模型重新训练的成本。

目前来讲,这还是一个开放性的问题,需要大家献计献策。

万字长文丨微众银行严强:数字经济时代,隐私保护的道与术

合规方面最后一点,不得不提的就是监管审计,我们为了限制用途,很多时候会需要使用密文训练,或者用密文进行推演或者进行一些计算。

在强监管的要求下,这个过程也会对监管带来一些新的需求。但是如果我们要实现跨域监管,比如跨境或者更大范围内的数据互通,挑战性还是存在的。

以一带一路为例,其中涉及到很多国家,比如意大利,就是一个欧盟国家。

如何更好的支持监管,尤其是对隐私大数据,怎么更好的处理、实现,无需参与方配合,无需给到解密的密钥,监管方怎么能够自主查验所需要的内容,同时,作为配合方,如何最小化信息的披露,实现分布式的信任,这里就需要用到区块链相关技术了。

微众银行在数据隐私领域的前沿探索

谈完了以上方面,在应对数据隐私驱动行业巨变的同时,我们需要一套完整的方案,在最后一部分,就不得不提“数据新基建”。

万字长文丨微众银行严强:数字经济时代,隐私保护的道与术

谈到数据新基建,需要回归到我们的原点——数据本身。

数据要产生自己的价值。除了那几个关键词——多方、海量、高维、异构,实际上还有一些其他特性,比如易复制性、非排他性、非竞争性,既别人拿到数据后,用100遍可能跟自身用一遍,没有什么差别。

而分散性就是有很多孤岛,我们要尊重这些孤岛,如何将它们连接起来,以及多样性、价值聚合性、价值认知多样性。

价值认知多样性在国际社会上是一个比较重要的话题,对于一次隐私信息泄露,如果当事人觉得严重侵害了其隐私,可以要求巨额罚款。

我们很多时候也会有一种观点,认为数据只有聚合才有价值,聚合是对公司有价值,但是单个数据是对个人是有价值的。

有些东西泄露后就会对个人的生活造成影响,比如医疗数据,这些都是切切实实的问题,但其认知性实际上是多样性的,如何照顾好每一个个体,尤其是实现数据的生产要素化,需要提供一系列技术保障。

万字长文丨微众银行严强:数字经济时代,隐私保护的道与术

若要实现数据生产要素化,我们要构建一整套的方案以达成效果,我们要界定其产权,储存和评估其价值,与最后的价值可流通。大方向都是围绕价值而言,要确定数据的收益。

万字长文丨微众银行严强:数字经济时代,隐私保护的道与术

同时,我们也要控制数据的风险,风险来自隐私跟安全。为此,释放数据要素生产力需要解决三大核心问题:安全存储、可信传输以及协同生产。

万字长文丨微众银行严强:数字经济时代,隐私保护的道与术

最后,为了发展健康的数据产业生态,我们需要打通隐私数据协同生产的双循环。

第一个循环指个人数据应用,即个人跟企业之间的数据互通,他们之间实际上是一个反馈关系。数据也不仅仅是停留在单个企业的,还可以在企业之间相互流转,于是便引入了第二个循环,这里会需要引入不同的技术能力来满足、实现协同生产的效果。

在理想的情况下,这两个循环之间还会进一步互惠互补,产生正向反馈,构成多方隐私大数据价值融合的良性大循环,显著提升用户体验和企业效能。

为此,我们也做了一定的实践并整理了一些案例,我们最近发布了一个白皮书,结合了多方面的技术以提升我们关键业务应用的隐私保障。

万字长文丨微众银行严强:数字经济时代,隐私保护的道与术

几个比较典型的事例:

第一,粤澳健康码互转互认,就是在跨境时,数据如何在隐私合规的情况下进行可信转化,以及在后台数据不连通的情况下如何实现互通。

第二,医疗处方线上流转,医疗处方本身涉及很多类别的隐私数据,而不仅仅是数字签名和数据加密那么简单。

第三,绿色出行普惠平台,这个项目结合了物联网的能力,因为绿色普惠很多时候与跟车辆有关,如何将物联网的数据以一种安全隐私的方式接入到平台,完成对应的计算评分,也涉及到很多数据隐私的问题。

第四,联合营销,效果非常明显,相比传统方式,可以提升20%以上的广告转化率。

之前分享中,提到在使用联合学习中可能存在的风险,但在实际部署中,我们会对方案进行一些隐私和安全的加强,值得一提的就是,我们不能够简单地相信一个方案所具有的能力而完全不提它的风险,还需要对其进行全方位的考量和评测。

长远来看,希望数据新基建能够采用相对可以管控的底层技术,更安全可控。

另外,可验证的隐私性、安全性,而不只是贴上一个技术标签,整体方案需要提供技术手段,允许用户直接参与到数据授权和限定使用的过程中来。

最后,就是高效率的计算能力,因为每类技术各有所长,很多时候特别安全的技术,其计算能力可能没有那么强,所以我们需要做一些融合以找到一个最优的解决方案。

万字长文丨微众银行严强:数字经济时代,隐私保护的道与术

这里和大家分享一组数字,对于千万级的大数据隐私求交,目前可以做到三分钟以内完成,万次联合的多方乘法计算,可以做到三毫秒以内,对于同时参与隐私计算的机构数则没有限制。

回顾刚才的几个关键词,多方、海量、高维。

多方,不少传统的方案都是一个两方或三方的架构,既如果有第4个和第5个参与方同时参与隐私计算,要么就是引入一个中心的协调方,中心协调方本身可能会泄密,这时的合作就很难进行了,但我们这边没有限制能够在很安全的条件下实现这类需求。

大数据也是同样的,实际上现在的隐私数据,包括政务部门,无论是人口或者其他方面的数据,千万级别都算是偏小的,实际上也有很多上亿的数据。如果不能够很好的处理存储量,很多应用难以得到使用。

最近央行颁发的一项相关技术标准,目前我们的所有的指标都是满足这个标准,而且更有效。

万字长文丨微众银行严强:数字经济时代,隐私保护的道与术

这里展示了我们主要的一个开源矩阵,以此构建我们的“数据新基建”的解决方案。

除了人工智能之外,区块链是承载数据信任和价值的最佳技术,对于隐私计算和AI应用中常见的数据品质、作恶溯源等难题,都可以通过区块链进行互补或提升效果。

具体来看,区块链板块里涵盖了微众银行牵头金链盟开源工作组开源的底层平台——FISCO BCOS,还有消息协作平台——WeEvent,分布式数字身份——WeIdentity,这些都是可以跟机器学习做密切的结合的,包括可视化的中间件——WeBASE,将数据连起来的跨链协作平台——WeCross,聚焦数据隐私保护的场景式解决方案集——WeDPR。

万字长文丨微众银行严强:数字经济时代,隐私保护的道与术

我们努力的终极目标只有一个,希望构建一个这样的基础设施,以化解大家在数据行业中的技术难点、业务痛点,然后更好地在上面去开发应用、发展生态、全面释放数据生产力。

这里的矩阵结合了各方面的能力,最后实现了这样的一个效果。当然很多具体的技术领域也是在积极探索中,也诚邀合作伙伴,与我们携手共创更好的未来。

万字长文丨微众银行严强:数字经济时代,隐私保护的道与术

随意打赏

提交建议
微信扫一扫,分享给好友吧。