瑞莱智慧徐世真:隐私计算商业化落地面临四大挑战,AI模式提供两大路径参考
【雷峰网】2021年12月9日-2021年12月11日,2021第六届全球人工智能大会(GAIR 2021)于深圳开幕。本届大会由粤港澳大湾区人工智能与机器人联合会、雷峰网联合主办,深圳市人工智能与机器人研究院、深圳市机器人协会、深圳市人工智能学会支持。
作为中国最具影响力和前瞻性的前沿科技活动之一, GAIR 大会已经度过了五次精彩而又辉煌的历程,见证数次潮水的转向,成为目前为止粤港澳大湾区人工智能领域规模最大、规格最高的学术、工业和投资领域跨界盛会。
大会第二天,以《直面数据安全风险和挑战;挖掘隐私计算的100%可为》为主题的“数据安全与隐私计算”分论坛吸引了来自全国各地的专家、学者、企业家、投资人等,大家齐聚一堂共话新时代下“数据安全与隐私计算”的当下与未来。
其中瑞莱智慧RealAI首席架构师徐世真带来了题为「隐私计算助力构建AI新基建」的精彩演讲。演讲要点可概括为以下几个方面:
-
AI和隐私计算息息相关,隐私计算是AI能力的重要补充,AI是隐私计算的核心需求。从场景角度来看,隐私计算通常和AI紧密相关,AI可以看成隐私计算的上层应用与核心技术。
-
隐私计算面临的困境主要有生态壁垒、安全性、可用性、计算性能。
-
借鉴AI发展模式,隐私计算的技术路径可走底层编译路线实现兼容互通,通过优化底层密码库优化性能;产业路径需要逐场景落地,并根据不同的场景选择不同的技术路线。
-
徐世真认为只有深度结合AI,使业务方从隐私计算中获益,才能把隐私计算从成本项变成营收项,保证企业有可持续的意愿度,保证数据价值闭环操作。
-
隐私计算仅仅是企业合规建设的一环,需要在法律法规的框架下进行。
瑞莱智慧RealAI首席架构师徐世真
以下是徐世真演讲全文,雷峰网 (公众号:雷峰网) 做了不改变原意的整理与编辑:
我是来自瑞莱智慧的徐世真,今天我的演讲主题是《隐私计算助力构建AI新基建》。
瑞莱智慧是孵化自清华大学人工智能研究院的AI 企业,专注于人工智能领域的安全问题。随着人工智能被纳入新基建的范畴,安全可控成为一项核心的基础能力,其中包括数据安全、算法可靠、应用可控。今天我主要分享一下公司在数据安全、隐私计算方面的研究。
一、隐私计算与AI能力互为补充
我们认为,AI和隐私计算是息息相关的。
首先,隐私计算是AI能力的重要补充。 从技术角度看,足够规模且多样化的数据,才能训练出比较好的模型,隐私计算能够解决数据的“链接”问题,为算法的持续进化提供数据补充;
第二,AI是隐私计算的核心需求。 从场景角度来看,隐私计算通常和AI紧密相关,AI可以看成隐私计算的上层应用与核心技术。基于密码学原理的MPC/联邦学习,需要针对特定应用进行程序改写,而且多数是属于AI应用,比如DNN、逻辑回归或树模型。从这一点来看,AI和隐私计算有一定的相通之处,他们都没有一个通用技术方案解决所有问题。
第三,隐私计算是AI平台的2.0版本。 从产品角度来看,用户需要的是带有隐私计算功能的机器学习平台。市场上主流的隐私计算平台,其实提供的大多是AI建模能力,不过底层通过密码学、MPC技术进行了隐私保护的功能。
总体来看,我们认为人工智能和隐私计算互为补充,且互为核心需求。
二、隐私计算的困境在哪里?
但目前我们也了解到,隐私计算面临很多问题。
第一,生态壁垒。 隐私计算解决数据孤岛的问题,但解决了之后,反而会诞生技术孤岛的问题,各家隐私计算的技术互不相通,也无法互相连接,基本意味着上层的代码需要重构。
第二,计算性能。 速度慢,因为引入了很多密码学操作,要么是MPC带来的通信问题,要么是同态加密带来的计算性能问题,很难支撑大规模数据训练,如果是亿级或十亿级的训练,单纯用联邦学习或者MPC很难实现。
第三,安全性。 各家从知识产权的角度不太会公开自己的底层协议(除了一些开源项目),这就带来协议不透明的问题,难以审计。安全性如果没办法审计,将会蕴含巨大漏洞。
第四,可用性。 我们为了做数据生态、解决方案生态,不可能要求客户自己连接数据,所以作为一家隐私计算技术的服务商,我们需要提供开箱即用的数据,甚至需要提供开箱即用的解决方案,让用户能够在不改变原来中心化非隐私计算操作体验的情况下来使用隐私计算平台。
三、AI发展趋势为隐私计算的未来发展提供借鉴
刚刚聊到AI和隐私计算之间的关系,其实我们可以用AI的发展趋势预测隐私计算将来的发展趋势。
第一,AI为隐私计算解决兼容互通问题提供了借鉴。 AI也有很多框架,比如Tensorflow、PyTorch,各个框架之间也很难互通,但后来出现了ONNX,在数据流图层把各家的协议集中汇聚起来,再转移成另一个框架可以执行的东西。数据流图层面的兼容,是AI发展为解决框架之间互联互通问题提出的方案,对隐私计算的互联互通具有借鉴意义。
第二,AI为隐私计算性能优化提供了方向。 我们知道AI也是吃算力的,AI的性能优化基本沿着两条路线,一是硬件升级,最早是CPU,后来又有GPU,再到现在专用的AI芯片;二是算法升级,包括模型的压缩、蒸馏、剪枝,把大模型变成小模型,这些对于隐私计算的发展也是适用的。
第三,AI为隐私计算解决安全性问题提供了路径。 我们做了一个技术实验,一张雪山的图片,经过添加对抗噪声,可以让AI识别错误,让其识别成一张狗的图片,这是AI的安全性问题。隐私计算也面临类似的问题,比如通过横向联邦中的数据投毒、模型污染化,所以AI和隐私计算在安全性提升方面面临的问题也是相通的。
第四,AI为隐私计算场景落地问题提供了借鉴。 前几年一直说AI赋能万物,AI赋能所有产业,现在大家发现是产业结合AI、场景结合AI。隐私计算目前也处在这两种思想的汇聚期,到底是隐私计算作为底座赋能所有产业,还是结合具体场景来选择相应的隐私计算技术?这是两种路线之争。当然,我们相信结合场景的AI更有价值,结合场景的隐私计算也更实际、更可落地、更有价值。
从AI的发展经验来推演隐私计算的发展,在技术路径方面,概括来说有以下几个思路:
第一,编译器路线。 兼容互通应该在底层算子层完成,不应该只停留在软件层或集成层,底层数据流图也是安全、可追溯、可验证的工具,可表达计算逻辑。 第二,性能优化。 短期可以通过优化底层的密码库来实现,未来还需要新硬件的介入,更好地提升速度。 第三,隐私计算的安全性, 包含抵御密码协议层和应用层的恶意攻击,随着AI的发展,一些对抗样本攻击的问题开始出现,隐私计算的发展将来也将面临一些新安全问题,我们应该在当前发展的时候就考虑到,而不是先发展后治理。
四、隐私计算的产业路径需要逐场景落地
同样参考AI发展模式,我们认为隐私计算的产业路径需要逐场景落地,并根据不同的场景选择不同的技术路线。借用信通院讲的三大技术路线来阐述多方安全计算、联邦学习和可信执行环境各个路线之间的优劣势。
(1)从应用场景来说,MPC更适合数值类简单计算和查询求交类特定计算;联邦学习主要是针对机器学习的场景,计算逻辑比较复杂,不是简单计算;TEE更适合通用计算场景,比如有时候想跑一个完整的Tensorflow或数据库应用,用前两个比较难,用这个比较合适。
(2)从技术优势的角度来说,简单的分布式统计/查询求交场景下,MPC比较成熟,但复杂计算情况下受限于通信情况,还是不太成熟;联邦学习,保证数据不出库的情况下进行复杂的机器学习、建模,大部分情况下的计算性能还是尚可的,但是在一些特别大量的数据下,密码学计算还是主要的限制;TEE是集中式的数据处理,易开发,它的算法/框架生态是最好的。
(3)从技术劣势的角度来说,MPC的通信量大,支持简单的计算逻辑可行,但计算逻辑一旦复杂,就耗费一定时间,比如一个Resnet,2-party,一张图片的inference可能需要10分钟以上,在实际落地中是完全不可接受的;联邦学习主要是面向AI建模场景,但有的场景就是想简单的求和、求最大值,这时候联邦学习就不是理想方案;TEE主要劣势是依赖于硬件厂商的硬件可信性,和用户是否接受数据集中式处理。
目前隐私计算这一赛道比较火热,但是还有很多问题没有解决。比如隐私计算解决的是数据流通安全性的问题,分离了数据所有权和使用权,避免流通过程中的资产损失,但它没办法解决端到端的安全问题。很多企业更希望获得的是端到端安全保障,比如数据存储、数据采集怎么做,以及数据流通前后的权属该怎么定,隐私计算在解决这样的全链路安全问题上,还面临着一系列挑战。所以, 隐私计算仅仅是企业合规建设中的一个技术环节,整体上还是需要在法律法规的指导下进行。
还有数据流通的意愿问题,如果企业只是把隐私计算当成企业合规建设的成本项,那数据交易也很难推行下去。 徐世真认为,只有深度结合AI,使业务方从隐私计算中获益,才能把隐私计算从成本项变成营收项,保证企业有可持续的意愿度,保证数据价值闭环操作。
五、编译级隐私计算平台RealSecure,打通落地“最短链路”
据了解,瑞莱智慧推出的隐私计算平台RealSecure是业内首个编译级隐私计算平台,自主研发联邦AI编译器,实现以数据流图变换的形式实现机器学习算法到联邦机器学习算法的自动转换,无需针对每个参与方编写特定的计算逻辑,适配多种机器学习算法。数据流图的形式可直观展示加密过程,底层执行的计算公开可审计,深度结合密码学证明,支持完整证明联邦算法协议的安全性。
同时,该平台创新性的引入了全同态加密技术,将密码设计中的批次处理和机器学习中以Tensor为最小数据单元的场景相结合,在部分机器学习算法中,该平台相对于主流开源框架有40倍以上端到端的速度提升。
基于RealSecure平台,瑞莱智慧推出了“平台+数据+服务+场景”的一体化解决方案,基于这套方案实现多个场景案例。
比如某家头部银行的资产跃迁分析案例。该银行希望统计集团子公司中交集客户总资产,定位发生资产跃迁客户,获取高净值客户名单,并分析资产跃迁潜在原因及差异化潜在高净值客户的营销策略。但是各个子公司不愿意透漏各自的数据详情、全过程各个参与方不能获取或者泄露各自数据详情。通过与瑞莱智慧合作,银行、保险子公司、证券子公司分别部署隐私保护计算平台(RealSecure)节点,基于RSC的PSI(隐私求交)及MPC(多方安全计算加法)技术,在保护各方数据隐私的前提下,统计集团子公司的交集客户总资产,并定位交集客户中的资产跃迁,获取高净值客户名单,根据统计结果制定差异化高净值客户营销策略。
最后,瑞莱智慧也与中伦律师事务所合作开展企业合规体系建设。双方基于优势互补,充分发挥资源优势,在数字经济时代针对人工智能、数据交换等新场景下监管机构的合规要求,对内健全技术合规体系建设,对外面向企业输出应用合规咨询服务。
雷峰网原创文章,未经授权禁止转载。详情见。