闾海荣:数据共享和隐私保护应用
11月21日,由中关村大数据产业联盟主办,中国信息协会、数据观、大数据文摘等协办的网络分享会——“区块链100分”成功举行,本期分享会的主题为《数据共享和隐私保护应用》。
分享活动中,清华大学自动化系副研究员、清华大学数科院医疗健康大数据研究中心副主任闾海荣博士从数据共享和隐私保护的痛点、利用区块链解决痛点和具体的应用这三个方面为大家进行了讲解。
以下是全文内容(略有删减):
今天所讲的内容中,很多想法的源头来自于在医疗领域碰到的挑战。
数据共享和隐私保护的痛点
为什么数据的汇聚共享应用这么困难?通过分析,大致得出以下几个因素:
痛点一:源头共享意愿低
数据的主权问题和使用边界暂不明细,是各个机构数据共享的意愿较弱的原因。目前数据的所有者、提供者、使用者、受益者等角色相互割裂,高质量的数据所有者,共享的意愿很低。同时,什么数据能够允许共享,数据使用的权限由谁分配并不明晰。
痛点二:中心汇聚难度大
各系统条块分割、相互独立,导致直接进行数据共享的难度呈指数级上升。由于系统各自开发、自行建设,导致各系统条块分割、相互独立。以医疗领域的系统为例,职工医保、居民医保、计划生育信息管理分别由人社、计生部门开发建设。已投入应用的系统中,有的由卫生部开发建设,有的由省卫生厅开发建设,有的由医院自行开发建设。开发标准不统一,流程不规范,造成目前数据共享举步维艰。
痛点三:安全隐私泄露易
原始数据一旦共享出去,就失去了隐私及控制权;中心化节点被攻击后数据泄露的风险和范围极大。
痛点四:应用生态建设难
纵向未到边,横向未到底,大多是死数据,缺乏有活力的激励措施和应用生态。医疗健康大数据来自各个主体,包括医院、个人、企业、科研机构等,即便通过完成了数据汇聚工作,由于数据的所有权不清晰及授权问题,很难汇聚高质量的数据,更难进行大规模的商业化应用。
所以,我们说,在目前的应用状态下,数据的价值是一次性的,很难成为资产或者生产要素。
解决方案
虽然存在着数据共享和隐私保护的痛点,但是数据共享和隐私保护像是一个天平的两端。如何在之间找到平衡的中间点,是我们要努力寻求的解决方案。
面对数据共享的三大瓶颈,我们可以通过四个步骤来完善和优化:
1.数据汇聚
从由“大一统的数据汇聚”(没有规划地买一通)模式逐步转变为“多模态数据汇聚”(有计划、分类地)平台。
2.数据治理
并不是所有的数据都能够直接使用。因此我们需要进行数据的治理,根据顶层设计的数据标准典范,配合技术力量着手治理数据。
3.数据融合
建立同一对象为索引的线索,这样,数据才能碰撞出火花,融合也才能够更充分。
4.数据输出
对于数据输出,我们应当从原来的获取原始数据的一种方式,逐渐的转变到获取分析结果的方式。也就是说,我们要将分析好的结果,给大家进行应用和分享。
这意味着我们未必非要把别人的原始数据拿到手,而是要从现有的以“获取原始数据”为主的累积型大数据建设模式,稳步转换到“获取分析结果”为主的应用型大数据建设模式。
具体应用
我们围绕医疗大数据推广应用中面临的实际问题,提出一个全新的兼顾数据确权和隐私保护的数据共享体系架构,探索相应的理论体系,建立构建数据共享、确权和隐私保护的标准,设计并开发一套高效、可靠的医疗大数据数据生产、流通、应用挖掘的软件平台SOLAR(Smart Online Limbic Alliance Renaissance),并在多家医院开展应用示范。
在这个数据共享与隐私保护平台里,区块链只是技术之一,还用了联邦学习、边缘计算相关的技术。具体有三块,分别是区块链、EDH和ECP。其中区块链技术主要保证了数据的主权和不可篡改性;ECP是团队研发的边缘计算平台,因此我们不要求获得用户的原始数据,计算过程在边缘计算平台完成,分布式协同计算、联邦学习都在这个模块里;EDH主要用于边缘数据的存储,也在部署于用户本地。
目前,我们在医疗数据的应用医疗领域主要有三大应用场景:分别是科研数据共享(B端,主要给医院和医院联盟使用)、专科联盟共享平台(G端,主要给政府监管部门使用)、个人健康数据保管箱(C端,主要给老百姓使用)。
这是我们科研数据共享的场景,做医疗行业的人可能都见过很多厂商的科研平台,我们的做法有点不一样。
我们在和很多医院或者是科研机构进行交流的时候,发现他们很多时候都需要大量数据的支持。以前的方式,一般是这家医院提出一个申请,然后信息科将数据导出来给到这个医生。但是,给到医生之后,这个数据到底是怎么用,去了哪里,有没有转给其他人,这些都是我们不知道的,而这些问题对数据安全来说是极大的隐患。因此,我们以这个痛点为切入点,设计了科研数据共享平台,解决不同团队之间数据共享的问题。
举例来说,现在如果我们需要数据共享,首先我们可以先达成协议,但是数据必须在这个科研数据共享平台上流转。比方说A医院,他提出了数据申请需求,那么B医院响应请求,我们会将共享B医院的数据的目录进行上链,那么A院使用了这家的B院什么数据,使用的次数,有没有被他中途转给第三方A医院都能够一清二楚。
在这样的一个环境的保护下,就可以较好地保护不同项目之间数据共享的问题,达到下面的四个效果:
(1)数据的使用在边缘中心,不外泄
(2)数据的使用可追溯
(3)数据的隐私保护
(4)数据的价值评估
在妇幼专科数据共享方面,我们和几家妇幼医院合作,共建了专科联盟数据共享平台。这个平台不仅可以将妇幼数据进行线上安全共享,我们还搭建了边缘数据分析平台,可以将数据处理放在数据拥有方本地,可视化地完成数据的计算和共享。联盟监管机构可以监控联盟间数据的使用情况,确保数据的安全流转。节点医院可以进行院内数据全流程追踪管理。
个人健康数据保管箱将解决个人全生命周期中,健康数据的采集、传输、存储、大数据分析算法以及健康服务的全流程问题上研究。数据的存储采用的成熟的信息安全机制+区块链分布式账本+边缘计算技术等。目前,我们有一套基于分布式账本的孕妇糖尿病管理的小程序,可以解决孕期妇女糖尿病高发,需要实时监管但是数据,以及数据监管的工作职责精确到个人。
除了医疗领域,我们还参与了建设一带一路数据共享(国家级)联合实验室,并在筹划做跨境贸易平台数据共享。基于项目团队自主研发的SOLAR系统,融合运用区块链、边缘计算等技术,实现“一带一路”沿线国家进行跨境贸易时单据流转的安全性及不可更改性。同时,用区块链的智能合约来降低跨境金融机构间的对账成本及争议解决的成本,实现合约的自动执行,并且保证相关合约只在交易对手方间可见,而对无关第三方保密。
责任编辑:张薇