大数据与智能时代的信息乱象及其治理

数据观 • 6年前扫码分享

核心阅读

在大数据和智能时代，“信息”无疑是一把双刃剑。信息已经展现了其巨大的威力，倘若任其野蛮扩张，不加以引导，信息或许会将人类拖入一个窘迫而危险的境地。如果能够加以有效地治理，信息及信息技术的应用会将人类引入到一种新的文明——数据与智能文明。

有一种说法，我们人类现在每天大概会创造出近13万亿字节的数据，而且这个速度还在与日俱增。如果你对这个天文数字没有具象的概念，那么换一个说法，在我们当下，时钟的秒针每转一圈，即在每一分钟，谷歌搜索引擎就会收到人类发起的380万次以上的搜索请求，亚马逊网站会寄出1000个以上的包裹，推特上新增47万篇以上的推文。

这些高频跳跃的数字，正是我们这个时代最鲜明的写照，也是最能反映我们这个时代特征的一个缩影。在这个写照中，最为重要的角色便是“信息”。正是对信息的开发与利用，塑造了这个“大数据与智能”时代。

信息为王

作为一种时代标定性的资源，信息如同水一样，成为人类生存的一种必需品。一方面，人们的生活方式越来越依赖信息，越来越多的人通过手机或电脑等智能终端进行学习，获取新闻，进行网络购物等。另一方面，“存在即可表征”，人的存在都是“数字化”的。人们前所未有地重视自己在网络上、在社交媒体上的数字身份，人类在网络空间中的一举一动、一言一行都被记录下来，不断丰富自己的数字个性与画像。

也有人将信息比喻为大数据与智能时代的“石油”，是一种战略性的资源。信息之于数字经济，犹如石油之于工业经济。以信息与通信为核心的ICT技术成为驱动数字经济发展的新动能，以信息为主要生产资料的数字经济日益成为主导性和支柱性国民经济组成部分。根据中国信息通信研究院发布的《中国数字经济发展白皮书（2017年）》所公布的数据，2017年，中国数字经济规模达27.2万亿元，占国内生产总值（GDP）的32.9%。此外，2017年中国数字经济领域就业人数达到1.71亿人，占2017年总就业人数的22.1%。

除了在社会和经济领域中扮演着重要角色之外，信息甚至成为人类科学研究和创新活动的关键要素。纵观科学研究历程，人类在经历了实验科学、理论推演和计算机仿真三种科研范式之后，正在迈入以“信息”为核心的数据密集型科学研究范式，也被称为“第四范式”。

在第四科研范式下，人类的科研活动以信息为核心，以信息的加工与处理作为主要手段，尤其随着近些年以深度学习为代表的新一波人工智能技术的发展，进一步提升了人类对信息处理和利用的水平。2018年以来，第四科研范式在化学、材料科学、生物学、医学乃至天文学领域不断取得突破性的进展。

信息洪泛

信息如此重要、如此宝贵、又如此之有价值，引来无数“英雄豪杰”争相开采。在人们享受信息所带来的效率和便利的同时，也引发了一些信息乱象。由于信息本身复制成本接近于零，同时随着信息技术的应用与渗透，使得信息摩擦也趋向于零。这样，如果不进行理性和伦理的约束，信息的开发会如同“野马脱缰”和“洪水决堤”一般，导致信息洪泛。信息洪泛会带来许多的问题，其中典型的问题有两个：一是信息过度的开发所引发的信息爆炸，另一个是信息的无边界渗透与蔓延侵蚀到个人的隐私。

信息爆炸是相对于人类的处理能力而言的。大数据的困扰核心在于我们当前对信息的处理以及有效地利用赶不上信息开采的速度，人类暴露在泛滥的信息之中难免迷失。用一句通俗的话来讲，信息供给量已经超出了人类信息胃所能消化的量。这种“消化不良”给人类一种非常不适的感觉，并由此带来各类烦恼和问题。我们所面对的信息比上世纪80年代末要多出数十个量级。出于本能，当人类面对这种超出其认知舒适边界的大量信息的时候，会不知所措，产生信息疲劳、信息焦虑，甚至信息恐慌。

另一个更大的问题是个人信息泄露。许多的厂商以为用户提供更好的服务之名，大肆地收集个人信息。个人信息犹如“案板上的鱼肉”，任人宰割。当我们在手机中安装移动应用（APP）时，很多不良移动应用都如饥似渴，恨不能攫取你手机中包括地理位置信息、通讯录信息、浏览行为信息等所有信息，并控制你的通信、控制你的音视频设备（例如摄像头，麦克风等）。它们如同一双双隐藏在你手机背后的眼睛，如影随形般地窥视着你的一举一动，你的个人隐私在它们眼中暴露无遗。除了移动应用的重灾区，窥视个人隐私的信息暴徒已经遍布在世界的每个角落，记录并监视你在网络中的行为轨迹、购物记录、搜索历史、交友记录、点赞与阅读信息等各种搜索引擎、网络商店和社交网站等。

信息滥用

当不良的应用获取到你的个人信息时，它们不仅可以随意地使用这些信息，还可以在黑市上廉价地、肆意地贩卖你的个人隐私。许多人都有过这种糟糕的经历：当你刚在某个网站注册并输入个人的手机号码，随后你就会收到许多骚扰和推销的电话。除了干扰到你的生活，个人隐私的泄露导致财产损失，甚至丧失生命的案件也是层出不穷。

相比于一些不良的应用，众多大型互联网企业的信息滥用问题更不容小觑。2013年美国“棱镜门事件”曝光美国政府一直在通过互联网公司监控电邮、即时消息、视频、照片、存储数据、语音聊天、文件传输、视频会议、登录时间、社交网络资料，并从中分析个人的联系方式与行动。棱镜门事件所涉及的互联网公司几乎囊括了微软、雅虎、谷歌和苹果等所有在美的互联网巨头。2018年3月，社交网站脸书被曝光其数据滥用，一家名为“剑桥分析公司”的数据分析企业，在未经授权的情况下，获取了脸书上多达5000万用户的信息，并涉嫌利用这些信息操纵选民投票。

如果说，信息的泄露和贩卖还只是一个非常初级的“滥用”，那么，当信息与以深度学习为代表的人工智能技术相结合后，信息会产生“深度滥用”。信息及信息技术曾被人类寄予厚望，期望它们能够解决人类所面临的一些问题。然而，事实上，由于信息的滥用，反而在某些情形下加剧了一些问题。

事实上，信息并非我们最初所认为的那么“客观”，所有的信息在开发和利用过程中，都将人类的一些主观性思维，包括偏见和错误都编码到数据标签和智能算法中。正是意识到信息及其滥用将会对社会所产生的深远影响，2018年来自14家机构的26位作者联名撰写了一篇题为《人工智能的恶意使用》的报告，在报告中，作者将基于信息的人工智能技术与核能、炸药和黑客工具相类比，并分别在数字安全、物理安全和政治安全几个场景下，分析了滥用人工智能所带来的一些后果。最后，作者呼吁人工智能研究者需要在研究初期就考虑潜在的对人工智能技术的错误使用，并尝试建立适当的监管框架，防止人工智能的恶意使用。

信息治理

“水能载舟，亦能覆舟”。在大数据和智能时代，“信息”无疑是一把双刃剑。信息已经展现了其巨大的威力，倘若任其野蛮扩张，不加以引导，信息或许会将人类拖入一个窘迫而危险的境地。如果能够加以有效地治理，信息及信息技术的应用会将人类引入到一种新的文明——数据与智能文明。

信息的治理犹如治水，不能仅靠堵，更要用疏。信息的治理，要掌握信息的规律、信息的本质与特征。

“没有规矩，不成方圆”。对于信息的治理，首先要出台对于信息，尤其是个人信息保护的相关法律。信息的安全，如果涉及个人的生物乃至基因信息，关乎国家和种族的安全。在现代社会中，简单拒绝信息的交互是行不通的，信息已经重构了经济和社会体系，务必要将信息的权力关进法律的牢笼中。值得一提的是，2018年5月25日，欧盟颁布并实施《通用数据保护条例》（GeneralData ProtectionRegulation），《通用数据保护条例》明确要求：所有能直接或间接识别的种族、健康状况、政治倾向、性取向等敏感信息，在未经当事人授权的情况下，企业不得使用。

“本末源流，班班可考”。对于信息的治理，还要加快明晰数据权属关系。数据权属不清晰容易导致数据交易的边界不清，也容易引发个人隐私泄露和知识产权纠纷等问题。应该明确界定数据主体资格，明晰数据交易分类和评定规则。要强化一些大型互联网平台与企业的信息保护责任，人们为了获取这些大型平台提供的服务，将自己的个人信息让渡给这些平台，并授权其就相关信息进行某种开发利用，以期获得更加优质的服务。因此，这些平台在进行商业开发和创新过程中，应该严格遵守信息的开发利用边界，肩负信息保护的责任。此外，要通过技术创新来解决技术问题。例如，加快区块链技术的研究与创新，促进其在数据权属的认定、交易和流通中发挥重要作用。

“纲常伦理，必也正名”。对于信息的治理，必须考虑伦理准则。许多涉及人类福祉的社会和经济决策功能现在都由基于信息和智能的技术系统所肩负，因此，信息及信息系统的建设不单单是工程问题，更涉及伦理问题。尤其在涉及一些种族、贫困群体、障碍群体以及妇女儿童等的问题中，信息及信息系统的构建更应该遵循人类的伦理准则进行设计、开发和应用。例如，IEEE（电气和电子工程师协会）关于自主和智能系统的伦理发出全球倡议，在《以伦理为准则的设计（第二版）》中，IEEE为信息技术的伦理设计提供了上百条的推荐与建议。

“规圆矩方，准绳嘉量”。对于信息的治理，最后还要实施算法审计和校勘，规范信息的有效与合规利用。对于信息利用中所采取的算法要做到“可问责、负责任、可解释、精确、可审计和公平”。尤其是类似深度学习这类“黑盒”算法，人类尚未完全理解其逻辑，也还没完全掌握这个“黑盒”模型，因此，在采用这类算法的过程中，我们尤其要加以审慎地分析与校勘，确保该算法符合相关法律法规，符合设计者的初衷。

责任编辑：方茶云