大数据应用与保护存在悖论吗

数据观  •  扫码分享
我是创始人李岩:很抱歉!给自己产品做个广告,点击进来看看。  

人工智能的发展过程其实就是人类淡出数据处理和应用的过程。进入大数据时代之后,人工智能的发展或者崛起已经是不可避免的事情——一方面,自然人的智力和能力已经不足以处理大数据;另一方面,人工智能将会全面接管数据的处理和应用(见下面所附的人工智能调研图)。

5月17日是世界电信和信息社会日——2017年的主题为“发展大数据,扩大影响力”。新华社消息,工信部总工程师张峰2017年5月17日称,我国将建设全国一体化的国家大数据中心,推进公共数据开放和基础数据资源跨部门、跨区域共享,提高数据应用效率和使用价值,同时加强安全监管,严厉打击非法泄露和出卖个人数据行为,维护网络数据安全。

可以想象,我国大数据的应用将进入快速通道,但同时也带来了应用与保护的悖论。

首先,政府所采集的公共大数据关系到国计民生,应用不当会对国家和公民个体造成不可逆转的伤害。

关系到国计民生的大数据涉及到很多方面,包括公民个人的隐私和身份信息等“公民个人信息”。对于公民个人信息的保护,继《网络安全法》等法律出台后,2017年5月9日,最高人民法院、最高人民检察院首次就打击侵犯个人信息犯罪出台《关于办理侵犯公民个人信息刑事案件适用法律若干问题的解释》(下称“司法解释”)。其对侵犯公民个人信息罪、非法购买和收受公民个人信息的定罪量刑标准以及相关法律适用问题进行了系统规定。

为什么要加大对“公民个人信息”的保护,因为我们在这些方面有着非常多的惨痛的教训。2016年8月19日,已经被大学录取的山东临沂18岁女孩徐玉玉接到一个陌生电话,被骗走了家人东拼西凑的9900元学费。在与家人去派出所报案回来的路上,女孩心脏骤停,两天后离世。当然,徐玉玉的例子只是个案,犯罪分子根本谈不上应用大数据,但可以想像的是,大数据应用如果在在公民个人信息上出了问题,那么徐玉玉的案件肯定就不是个案了。

其次,公共大数据有很多是人工统计数据,准确性可能有问题。

公共大数据中有很多是手工采集的统计数据,统计口径不停在变,且原始数据不可追溯,导致其准确度和可信度出现问题。如果这些数据成为政府公共决策的基础,那么会导致政府的决策出现偏差。

2017年1月17日,辽宁省十二届人大八次会议在辽宁人民会堂开幕。辽宁省委副书记、省长陈求发代表省政府,作政府工作报告首次对外确认:辽宁省所辖市、县,在2011年至2014年存在财政数据造假的问题。报告援引了国家审计署2016年的一份文件:“辽宁省所辖市、县财政普遍存在数据造假行为,且呈现持续时间长、涉及面广、手段多样等特点。虚增金额和比例从2011年至2014年,呈逐年上升趋势。财政数据造假问题,不但影响中央对辽宁省经济形势的判断和决策,还影响到中央对辽宁省转移支付规模,降低了市县政府的可用财力和民生保障能力”。除财政数据外,其他经济数据也存在不实的问题。

当地经济研究专家介绍,一些县区过去经济数据至少有20%-30%的水分。沈阳周边一个县,2013年统计的财政收入是24亿元,审计署审计后“修改为”不到11亿元。类似情况的并非个别现象。比如,岫岩满族自治县虚增财政收入8.47亿元,高出同年实际财政收入的127%。

财政收入数据造假,“吹牛也要上税”,也让辽宁一些地市付出惨痛代价。一个地级市市委书记告诉记者,在分税制体制下,财政收入虚增的税收数额,也要按比例向中央和省上缴。前几年财政收入虚增空转,百姓没有得到好处不说,相当于平均每人要多交税收1000元!

这样的有毒统计数据进入大数据库,将会对下游的数据应用带来灾难。其引发的蝴蝶效应甚至有可能跨越数代而不自知(比如人口普查及计划生育)。从这个角度来说,大数据的应用保护包括数据打假以及对下游数据使用者的保护。

第三,人工智能将给大数据的保护带来挑战。

在大数据保护这个问题上,人工智能或者被操纵的人工智能平台已经不断地向我们发起挑战。远的不说,就说5月中旬开始横行的勒索软件WannaCry所展开的攻击模式已导致了全世界至少20万台Windows电脑被黑,攻击者加密了电脑文件,索要价值300美元的比特币作为赎金。如此大规模地网络投毒,没有跨法域、跨系统的高级人工智能参与是难以想象的。

据报道,勒索软件的源头是美国安全局(NSA)。根据前安全局主管基思·亚历山大(KeithAlexander)将军的解释:NSA、FBI等政府机构为了保护国家抵抗恐怖袭击和网络攻击这两种主要的威胁,就需要掌握一些在电脑操作系统中的漏洞作为抵抗恐怖袭击和网络攻击的工具。亚历山大在媒体采访时特别解释:“NSA不会囤积漏洞;他们会放出90%以上的获取的漏洞,但为了追踪恐怖分子,你就需要漏洞。”这不是官方回应,但这位NSA前主管的话,已经算是比较“正面”地承认NSA在这件事上的责任,以及此前的泄漏事件。

人工智能对大数据保护带来的挑战不仅体现在像勒索软件所带来的网络攻击上,还体现在我们对大数据保护的立法及执法需要机器思维,对了,你没有看错,我们在立法及执法的时候得像机器那样去思考。

《网络安全法》中把“个人信息”定义为:指以电子或者其他方式记录的能够单独或者与其他信息结合识别自然人个人身份的各种信息,包括但不限于自然人的姓名、出生日期、身份证件号码、个人生物识别信息、住址、电话号码等。把“个人信息”定义为能够“识别”自然人个人身份的的各种信息还太“人性化了”——机器或者人工智能已经“进化”到不要识别自然人个人身份就可以完成相应的推销工作。比如,VR领域最重要的技术,眼球追踪技术,因为可以获知人眼的真实注视点,从而也可以用在现实商务领域来捕捉客户的兴趣点。当你逛商场的时候,你的眼球关注某个商品的时间超过一定的阀值,即使你没有下单,也说明你对这个商品感兴趣(想想你谈恋爱时含情脉脉的目光就能理解了)。所以,除了识别自然人个人身份的信息是公民个人信息之外,反映特定自然人活动情况的各种信息似乎也应当归类到公民个人信息,对此上面所说的两高司法解释做了相应的补充——该解释不仅明确了公民个人信息是指以电子或者其他方式记录的能够单独或者与其他信息结合识别特定自然人身份的各种信息,同时还包括反映了特定自然人活动情况的“公民个人信息”。

如果这个定义在合规实践当中严格适用,那么将会给涉及公民个人信息的大数据应用带来不大不小的一个障碍。公民个人信息的合法应用一般来说有两个安全港(safeharbor),一个是获得公民个人的许可;另一个是匿名化处理。但匿名化处理公民个人身份容易,但匿名化处理“自然人活动情况”将会非常困难,另外也将导致数据的商业价值荡然无存。

   结论

总之,大数据是网络信息技术与经济社会各领域深度融合的产物,对于未来的互联网生态、创新体系、产业形态乃至社会治理结构等都将产生革命性的影响。随着信息技术的普及,大数据这座“宝库”正在被人们发现、认识、挖掘。但我们在提升大数据价值、扩大大数据资源时,如何维护大数据安全、保护公民的个人利益不受侵犯,也是大数据应用必须解决的问题。

因为人工智能的进化与大数据的应用的正相关性,我们在考虑大数据运用与保护的同时,一定要放眼机器世界,用它们听得懂的语言告诉它们如何遵守我们人类的规矩。不过,要不了多久,能保护我们人类个人信息不被人工智能侵害的,恐怕也就剩下人工智能了。

责任编辑:陈近梅

随意打赏

大数据技术与应用大数据的应用领域大数据应用案例大数据应用大数据悖论应用数据
提交建议
微信扫一扫,分享给好友吧。