韩亦舜:医疗数据隐私权思辨(附PPT)
[导读]本讲座选自清华大学数据科学研究院执行副院长韩亦舜于2016年7月15日在“首届中国大数据应用大会”上所做的题为《医疗数据隐私权思辨》的演讲。
如今的医疗大数据应用呈哑铃状,一方面我们对此医疗数据的价值挖掘需求迫切,有大量的科研人员渴望医疗数据,另一方面政府和医院集中了大量数据和资源,可供给量也很大。但我们在利用大量的医疗数据进行科学研究时遇到了一个瓶颈——隐私。隐私问题很宽泛,也容易让人混淆,我今天注重讲医疗数据的隐私问题,分享我对医疗隐私的一些思考。
中英文在隐私的含义上有很大差别。中文里将自己不愿意告诉别人的事情都看作隐私,在采集数据时中国人更加敏感、更加不愿意数据被收集。
大数据时代的隐私新内涵
而英文中的“privacy”讲的是不被打扰的权力或状态,也就是说在约定的或者公认的商业范围或科技范围内采集数据是不侵犯个人隐私的。
这样,形成了在隐私概念上的差异,中国的隐私概念主观性更强,指的是一种立场,英文或西方世界的隐私客观性更强,指的是一种状态。
一般隐私是传统的概念,我国法律上定义的隐私包含了住址、肖像等。当然住址、肖像等后来也可以数据化。而数据隐私包括了很多只有大数据时代才有的特点:网上的言行、移动的位置,以及生理数据和消费数据。大数据时代不能把隐私过于绝对化。很多年轻人都希望得到一些个性化的服务,而有别于其他人就需要把个性化的数据展示给别人,包括我们所说的医疗,没有你的生理数据医生如何对症下药?数据时代需要建立一种新型公序良俗下的隐私观念,这不是传统意义上的“一律都是我自己的事”,它是一个新的协调关系。
采集网页浏览的数据是否侵犯隐私?你的数据你是否真的能做主?这是社会上普遍存在的问题。数据的隐私和一般的隐私概念不一样,它的权属界定很复杂,特别是医疗数据隐私。
欧洲有“被遗忘权”,以我个人的理解,它可能是说“从现在起我希望不被打扰”。从这个意义上说它符合西方人的隐私概念。但在东方我们以为它指的是“从现在起我的所有历史记录都可以删除,都没有了”,我认为这种理解是不对的。数据是对世界的一个真实记录,但如果记录某个事件的数据被毁坏,这与破坏一个文物,让我们失去还原历史的主要依据有什么区别?所以我认为,想通过所谓“被遗忘权”获得一个绝对的权力,把一个人所有的历史或数据全都洗掉,这是不现实,也是不可操作的。
医疗数据的隐私问题
大多数、甚至绝大多数的医疗数据都不是个人采集的,而是依靠医学机构采集的。这就无法简单界定这些医疗数据是属于个人、医生,还是医院的。此外,医疗数据具有复杂性,它的特点包括个人层面、机构层面和政府层面等几个层次。这些都决定了广义的医疗数据隐私的复杂性。我们需要考察的维度包括数据采集方、数据质量、是否对应、是否产生价值等。
医疗数据应该如何利用
医疗数据如何利用?首先应界定什么叫隐私,然后参考各方的利益和敏感性,脱敏后加以利用。美国发布了一个“PHI”文件,列举了18项它认为跟个人隐私有关的数据。比如说第14项,其实它的含义是指人体植入的微型给药泵,或者心脏起搏器之类的装置。你如果将某重要人物装的什么型号医疗装置告诉敌对的他人,别人可以利用型号等信息从远程控制他,造成生命危险,所以这类信息应该属于隐私。其它项涉及哪些隐私的信息,为什么列入PHI,也值得探讨,国外在脱敏后医疗数据应用方面已经有不少例子,走在了我们的前面,我们不妨学习借鉴,尽快出台我们自己的在医疗健康方面隐私的定义。
前面提到医疗数据的权属有很大争议,我想各方是否能先搁置争议,说说我们可以做什么。我尝试约定了各方的权力和义务。医疗行业的特殊性决定了患者是处于劣势地位的,一般患者不具备决定把什么样的个人数据给医生的能力。此外我们都希望医生在得到患者更全面的信息以后,能给患者一个更准确的判断。患者也不应阻止医生将患者的数据用于科研。看病的医生受了很多训练,有丰富的经验,这些都是建立在利用前人医疗数据基础之上的。可以说医疗数据是人类的财富,在保护隐私的前提下我们任何人都无权拒绝把它贡献出来。所以不应该由患者决定个人医疗数据如何开放共享。
美国政府开放数据网站,其中有关于健康的内容,囊括了几万个数据集。它对每个数据集进行了描述,并比较详细地记录了这些数据的来龙去脉,其中包括医院的名字、用哪种形式报销等在我们看来很敏感的数据。那么这些数据是不是公布以后就直接威胁国家安全或引发社会动荡?我们似乎是自己捆住了自己的手脚。这些医疗数据的公开和共享是很大的挑战,我们敢公布吗?
美国的数据开放在全球排名是十几名,而英国连续几年都登榜首。这说明一个问题,当一个国家有实力、自信的时候,它敢于开放数据。那么我们要不要解决数据开放这个问题?我们总是提大数据,中国的学者们有能力挖掘出数据中的价值,我们需要扎扎实实地做些事情,但如何公开地获得数据是我们面临的挑战,很多科研所用的数据都是从无法公开的渠道获取的。瓶颈就在于患者、医生、医院和政府等几乎所有利益相关者,特别是主管机构要重新认识究竟应该如何保护隐私。如果不打破这个像哑铃把一样的瓶颈,就意味着我们利用大数据进行医疗方面的科学研究会落后于人。
英国伦敦政府开放数据的网站,有八十几个跟健康有关的数据集,每个数据集都有概况介绍。关于婴儿和围产期死因的情况,甚至可以具体到区域和年份。关于乳腺癌筛查的数据也很详细。这里面相当一部分在我们看来都是敏感数据,而在英国是公开的。我下载了他们的数据看了以后确认,当英国开放这些数据时,他们做了脱敏处理,也就是说对保护隐私有所考虑。
医疗大数据应用实施路径建议
第一,应该由政府主导确定中国哪些数据是可以脱敏后开放的,哪些数据确实是有保密的要求、不能开放的,并制定中国版的PHI。
第二,我认为非常有必要说清楚哪一方有什么样的权力。获取权力的同时意味着责任,有关方不能急于抢权利,而是应想清楚相应的责任和义务。
第三,我们应该立法要求医疗数据共享,因为它是对人类,特别是对咱们中国人有贡献的一件事。
第四,我们可以推动最小数据集的采集,目前在中国做的还比较少。其实国外与我们面临着同样的瓶颈,但是为什么国外能将最小数据集的采集推动的比较好?是因为这些国家在机制上进行了创新,采取了很多方法,他们面临的阻碍相对较少。
第五,政府应该担起责任,鼓励医疗大数据科研成果的应用。政府不能引导老百姓认为数据开放是不可行的,相反,很多科研成果,哪怕是作为辅助医疗,也应当利用起来。有科学的方法来做辅助诊疗,一定能够提高我们的整体医疗水平。尤其是能帮助边远、优质医疗资源不能覆盖的地区提高医疗水平,减少误诊误判的情况。
我们提出大数据思维的十个字“大视野、多维度、言之有据”。这个世界很大,远远超出我们的想象,它在数据的描述下就更大了。我们不要轻易地限制自己,带着大数据思维,把眼界放的更开。并且和过去相比,我们思考问题的维度更多、更认真、更仔细。最后,希望所有的人从现在起,不论是说话还是做事都言之有据。
注:本稿件摘自数据观入驻自媒体—数据派,转载请注明来源。微信搜索“数据观”获取更多大数据资讯。
☞点击进入 韩亦舜 在数据观的人物专栏>>>
责任编辑:陈近梅