中孚信息敏感信息实时监管系统，切实保障数据安全

砍柴网 • 4年前扫码分享

我是创始人李岩：很抱歉！给自己产品做个广告，点击进来看看。

近日，一名颇受观众喜爱的脱口秀演员发微博证实，在其与原合作公司诉讼过程中的案件材料里，他发现了自己在中信银行的个人账户交易明细。

“你也没有我的身份证，你也没有我的银行卡，你也没有司法机关的调查令，竟然能从中信银行拿到我近两年的流水还打印出来。”当事人就此事正式发出律师函，并指出在未经个人授权和司法机关合法调查程序的情况下，直接将个人银行账户交易明细打印，并提供给第三方，属于严重违法。

那么这种行为到底违不违法？违反了什么法？答案是当然是属于违法的，涉嫌“侵犯公民个人信息罪”。我国第一次将侵犯公民个人信息犯罪写入立法之中是在2009年的《刑法修正案七》，其中第二百五十三条中以明确的主体和构成要件填补了我国公民信息保护的立法空白。至今十余年间两次修正案的修订，对侵犯公民个人信息相关规定进一步扩充和完善，特别是对出售、非法提供以及非法获取等行为的犯罪构成要件以及量刑情节进行了细化，从对公民法益的间接性保护转变为直接保护的内容。

除此之外，《民法通则》第一百一十一条明确了公民的个人信息受法律保护。《侵权责任法》还专门对网络上实施的侵犯公民信息权益的行为做出了规定。

中信银行的这次个人信息泄露据说是内部人员为了配合大客户的要求而做出的，而实际上这种现象的背后还暗藏一条贩卖银行流水等信息的黑色产业链，据南方都市报记者调查，有卖家声称，银行流水等信息来自“内部人士”，4000元可查一个月的流水记录，并“确保专业准确”。早在2016年12月，南都记者就曾在调查报道中披露，公众的隐私信息，包括开房记录、四大银行存款记录、乘坐航班，甚至网吧上网记录信息，只要付费，在黑产圈都可以轻易被买到。

大数据时代，个人敏感信息泄露问题日益严重

那么到底什么才是个人数据？目前，我国学术界与司法实践多根据识别的来源来界定个人数据。识别包括直接识别和间接识别，直接识别即可通过直接确认本人身份的数据来识别，如身份证号码、基因等；间接识别指通过与其他数据结合从而确定本人身份的数据来识别。从根本上说，我们生活中的几乎每个方面都围绕着数据。从社交平台到银行，从零售商和政府，几乎我们使用的每项服务都涉及对我们个人数据的收集和分析，姓名、性别、年龄、地址、手机号码、银行卡号等等，所有都由组织收集、分析，并且可以存储。

2016年4月27日，欧盟通过了《通用数据保护条例》GDPR（General Data Protection Regulation），该条例经两年过渡期后取代1995年95/46/EC号指令于2018年5月25日正式生效[2]。这标志着欧盟建立了统一的个人数据保护法制。根据GDPR的条款，组织不仅必须确保在严格的条件下合法收集个人数据，而且收集和管理个人数据的人有义务保护其免受滥用和利用，并尊重数据权利，否则将面临罚款。GDPR的核心是一套旨在使欧盟公民对其个人数据有更多控制权的新规则，它旨在简化企业的监管环境，以便欧盟公民和企业都可以从数字经济中充分受益。

GDPR所指的个人数据是什么？在原有法律下被视为个人数据的类型包括姓名、地址和照片。GDPR扩展了个人数据的定义，IP地址之类的信息都可以成为个人数据，而诸如遗传数据和生物统计数据，可以对其进行处理以唯一地识别个人的信息都属于敏感的个人数据，也就是隐私的范畴。

美国银行，保险和医疗保健等对隐私敏感的行业的公司敏锐地意识到了隐私问题，这就是为什么这些企业（及其行业监管机构）每年向客户发布隐私政策声明，说明其数据隐私政策以及公司将选择与他人共享（或不共享）的信息的原因。当人们收到这些隐私通知时，大多数人都会把它们扔掉，因为人们感到相对安全，该公司将对收集到的数据做得很好。而实际上，数据问题还有另一面：一些采集消费者数据的公司往往将这些数据打包私自出售，因为这为其业务创造了新的收入流。2018年3月美国发生了一起轰动全球的隐私泄露事件，名为“剑桥分析”的数据分析公司被曝料通过Facebook收集用户偏好信息，然后利用这些用户喜好有针对性地推送广告，最终达成的目标是影响2016年美国大选。接着Facebook被爆出超过5000万的用户信息被滥用，受到丑闻影响，次日Facebook股价应声大跌7%，市值缩水360多亿美元。

GDPR认为 个人数据是“敏感”的，满足以下条件之一才能处理敏感数据：

已获得个人的明确同意（在某些情况下，法律可能会排除此选项）；欧盟或国家法律或集体协议，要求公司或机构来处理，以履行其义务和权利的数据，以及那些个人的，在就业，社会保障和社会保障法的领域;人的重大利益，或身体或法律上无能力同意的人的重大利益受到威胁；基金会，协会或其他非营利组织，其宗旨是政治，哲学，宗教或工会，处理有关其成员或与该组织定期联系的人员的数据；个人数据明显是由个人公开的；建立，行使或抗辩法律要求所需要的数据根据欧盟或国家法律，出于重大公共利益的原因处理数据；为预防或职业医学，评估员工的工作能力、进行医疗诊断、提供健康或社会护理或治疗，或基于以下目的管理健康或社会护理系统和服务而处理数据；根据欧盟或国家法律，出于公共卫生领域公共利益的原因处理数据；根据欧盟或国家法律对数据进行存档，科学研究或历史研究目的或统计目的的处理。

隐私泄露风险多，如何对敏感数据进行有效保护？

敏感数据经常通过各种漏洞泄漏出去。特别是类似金融、医疗、电子商务等各种业务生产系统积累了大量包含客户账户、身份、密码、个人健康情况等敏感信息的数据。而这些数据，在这些业务系统的很多工作场景中都会经常使用，例如，业务分析、开发测试、审计监管，甚至是一些外包业务等方面，使用的都是真实的业务数据和信息。如果这些数据发生泄露、损坏，不仅会给这些组织带来经济上的损失，更重要的是会大大影响用户对于这些组织的信任度。如何保证业务过程中敏感数据安全已经成为必须面对的一个重要的问题。

隐私泄露等敏感数据遇到的风险不是开发人员的疏忽，而是对敏感数据采集、传输、存储、使用和销毁的全套解决方案和基础架构的信任放错了位置，要加强对组织和个人敏感数据的保护应该转向具有自动敏感数据识别功能的数据安全解决方案。

敏感数据可能是以文字、图片，甚至是视频的方式存在，发现敏感信息并进行妥善处理的关键环节即敏感数据的识别与发现，这一过程通过应用自然语言处理及文档分类、图像模式识别等算法，采用人工智能的理论和技术将设定的自然语言、图形图像用计算机程序表达处理，构建具有高准确度和较高速度的若干数据识别分类器，从而构造出能够理解和识别敏感和隐私信息的机器智能模块，一般包括训练分类器和分类识别两个功能层次：

中孚信息敏感信息实时监管系统，切实保障数据安全

整个识别过程包括：样本数据库预分类、提取文本、图片和视频特征、建立特征库、场景数据抽取、数据预处理、文本检测、视频检测、图像检测、特征提取、分类判断。

数据抽取：对包括敏感信息的海量数据信息进行抽取，获取与组织敏感信息或个人隐私相关的多维数据进行内容识别，判断其敏感性和重要性。

数据预处理：文本数据预处理，必须把文档中的词与词分割开也就是分词，然后才能提取对文本分类最有意义的词语，并根据每个词对分类的重要程度进行权重计算和特征提取。视频数据预处理，由于视频中图像有着过多冗余的特征，所以在处理视频时一般将视频中的图像通过某些算法，选取其中的一幅或者若干幅图像作为关键帧，用这些关键帧表示视频中的内容；其他数据预处理，数据库中其他与个人隐私或组织敏感信息有关的数据抽取后的清洗、分解和合并等工作；数据检测，根据数据类型，按文本、图像、视频或其他，数据进行分类检测，提取相应数据特征。

数据特征提取：文本特征提取，对文本自动分词后，从分词结果中选择特征词是建立分类特征模型的关键。本模块提供包括互信息、信息增益、文档频度等特征词选择方法；图像特征提取，图像特征的正确提取和恰当组合是整个判别模型的关键，对于后期分类器的分类效果起着决定性的作用。敏感图像过滤是一个特殊的图像识别问题，结合此类问题的分析，大部分情况下人脸、动作和周边环境是敏感图像的主要内容，判别模型所采用的特征包括图像颜色特征、皮肤特征、人脸特征等。

样本数据库：实验数据包括文本、图像、视频或其他数据，相应数据都已打好标记。其中，文本类样本可以选自成熟的语料库，从已经标记好的文本中提取若干作为测试文本集，剩余的作为训练文本集。

分类器：采用半监督学习分类器，这种分类器在训练样本集数据的部分信息缺失时，具有较好性能和推广能力，具体分类器包括协同训练、图理论、生成式模型算法等。

中孚信息为全面解决敏感信息和涉密信息的泄露问题提供有效技术手段

我们深知，发生这类事件，重点是从“人防”方面着手，加强从业人员职业道德教育。除此之外，金融系统还可以部署敏感信息实时监管系统、计算机终端保密检查系统等产品，为大数据时代的数据安全提供服务。

“中孚敏感信息实时监管系统”支持对敏感信息的实时监管，为全面解决敏感信息甚至是涉密信息的泄露问题提供了有效技术手段。系统通过实时监控，及时发现敏感信息并堵住泄露渠道，具体原理是对被监控端所有文档的编辑工作进行监控，根据策略自动分析文档中的敏感信息，在发现文档包括已定义敏感信息类别的情况下，可立即屏蔽该机网络功能，防止敏感信息泄露行为发生，同时进行发出告警，供日后查证。

目前，中孚信息自主研发的敏感信息实时监管系统和计算机终端保密检查系统已在中国建设银行、国家开发银行、农业发展银行等重点金融系统进行部署，为切实保障数据安全做好保障。

备注：