解读《个人信息保护法(草案)》:风控数据行业已死,营销数据行业还能活多久?
编辑导语:如今,网络已深入到社会的方方面面。它在为人们带来便捷的同时,也带来了日益严重的信息泄漏问题。在大数据的冲击下,用户个人隐私保护面临严重挑战。2020年10月21日,备受瞩目的《中华人民共和国个人信息保护法(草案)》经人大常委会审议,在中国人大网上公布向全社会征求意见,该草案的出台代表着我国个人信息立法进程翻开了新篇章。
1. 一场风控数据行业整顿风波引发的个人信息合规的思考
2019年11月14日,公安部在北京京召开发布会,通报全国公安机关开展“净网2019”专项行动工作情况及典型案例。
其中,黑龙江公安机关网安部门侦破“7.30”网络“套路贷”专案。公安部网络安全保卫局局长王瑛玮在会上表示,今年5月25日,黑龙江省七台。
河市公安局接到“套路贷”报案后,对套路贷”实施团伙、催收团伙以及帮助“套路贷”犯罪的技术服务商、数据支撑服务商、支付服务商开展了全链条式打击。
据财新报道,该案为公安部挂牌督办案件。其中,涉案的部分大数据服务商为新颜科技、聚信立、魔蝎科技,爬虫业务有关负责人被抓获,均属上述专案的主要案件。
风控数据公司为什么会被打击呢?
最核心的原因是国家要去杠杆,整顿互联网金融产业,其中有个细分是网络借贷,再细分有大额、中等额度、小额。
小额是模仿的国外的paydayloan模式,我们叫714,具体业务是借贷周期为7天或14天信用贷款,额度一般1000-2000,利息一般300-500不等,主要解决月光族临时借钱的需求。
问题就出在这里,看着借1000,七天后 还没什么问题,其实到手只有700,砍头息300放款时被扣掉,折合年化利率有1000%以上;而且是循环贷,风控不严,这样导致借款人多头借贷,拆东墙补西墙,像滚雪球一样越滚越多,直到最终积累到自己无法承受的情况。
然后最最重点的来了,催收环节,由于是信用贷款,借贷过程一般要求借款人授权很多数据,最常用的有通讯录、运营商数据、电商数据等,通过大数据风控来支持催收,压倒借款人的就是“爆你通讯录”这个手段。
解释起来就是催收人会通过通讯录和运营商数据识别出你频繁联系的亲朋好友,然后一一打电话过去说你借钱不还,这样彻底搞坏你的声誉,最终出现了很多借款人跳楼自杀出现严重社会问题——这时候行业其实在走向不正之路。
然后有人可能要问,这与风控数据服务公司有什么关系呢,为什么打击风控公司呢?
其实早期只是打击业务公司,但是屡禁不止,然后开 始打击为业务公司提供整套业务系统的公司,叫系统商,还是不能完全禁止,最后上层提出“全链条打击”的方针,作为上游的风控数据公司就成为打击对象了。
说到这里与《个人信息保护法(草案)》有什么关系,风控数据服务公司有触发法律法规吗?
——还真有的,有些可能也是钻法律的空子打擦边球。
2. 近期 《个人信息保护法(草案)》推出,对个人信息保护的加强有哪些核心要点呢?
说到《 个人信息保护法(草案) 》先来讲下违反后的后果会怎样,会触犯哪条法律?
常见的法院判决案例个人信息犯罪一般会定为“侵犯公民个人信息罪”,追根溯源不得不说下《刑法》。
《刑法》保障公民的人身权利,人身权利 主要包括人格权和身份权、人身自由权、生命健康权和人格尊严权,人格尊严又包括肖像权、名誉权、荣誉权、姓名权和隐私权等。
其中隐私权就包含在内,个人信息,尤其是隐私信息都受法律保护,对应的刑法的罪名为【侵犯公民个人信息罪】,具体的条例如下:
《刑法》第二百五十三条之一:【侵犯公民个人信息罪】违反国家有关规定,向他人出售或者提供公民个人信息,情节严重的,处三年以下有期徒刑或者拘役,并处或者单处罚金;情节特别严重的,处三年以上七年以下有期徒刑,并处罚金。
违反国家有关规定,将在履行职责 或者提供服务过程中获得的公民个人信息,出售或者提供给他人的,依照前款的规定从重处罚。
窃取或者以其他方法非法获取公民个人信息的,依照第一款的规定处罚。 单位犯前三款罪的,对单位判处罚金,并对其直接负责的主管人员和其他直接责任人员,依照各该款的规定处罚。
《个人信息保护法(草案)》经历多年的立法过程终于在2020年10月通过草案,形成了更佳完备的制度,提供了更佳有力的法律保障,弥补了尚没有一部专门的法律或法规可以为个人信息提供直接法律保护的缺憾。
立法过程图
《个人信息保护法(草案)》核心要点解读(图片来公众号“天元律师”已获授权)
3. 大数据应用最成熟的两个领域:金融风控和营销,哪些数据业务环节会触碰合规风险?
从事数据行业这么多年,每天都有数据打交道,其中不免涉及到个人信息的使用场景。
从目前大数据的发展情况和应用场景来说,技术最成熟和应用最频繁的行业是金融风控和营销,最典型的案例就是:芝麻信用分和营销广告投放。
对于风控数据服务公司来说,其业务主要有三块:风控报告、征信分、联合建模:
3.1 风控报告
分很多种,有综合评估的风控报告,有运营商数据风控报告,有淘宝/支付宝数据风控报告,多头借贷报告,黑名单等。
3.2 征信分
一般通过风控报告和原始数据的清洗,然后通过特征工程生成信用模型所需的特征,经过机器学习算法进行建模,输出一个衡量借贷人信用好坏的分数(类似芝麻分),用来评估是否给借贷人授信和放款。
3.3 联合建模
场景主要在风控公司有用户的各类授权数据,但没有用户还款表现数据(业内称Y标签),而业务公司有用户表现数据,但授权数据维度单一,无法建立效果较好的风控模型。
基于双方的需求,采用联合建模的方式,双方各出一部分数据进行进行撞库,然后建立模型,业务公司使用模型时会调用风控公司的提供的数据标签,这样风控公司就形成了数据变现的闭环。
对营销广告技术服务公司来说,核心是提供广告平台技术和广告投放服务。
广告平台技术,也称Adtech,包含DMP(数据管理平台)、DSP(需求方平台)、SSP(供应方平台)、ADX(广告实时竞价交易平台)各位系统。
其中与用户信息相关的是DMP平台,主要给广告用户打标签,记录其点击行为数据、内容偏好数据、位置信息数据等,然后把各个广告主和流量主的用户信息通过一定的id(设备或者其他id)打通,实现跨渠道的广告联动投放,其中就会涉及到用户信息标签交换的的场景。
无论是风控数据服务,还是营销广告数据服务,从数据技术的角度来看都会涉及数据生命周期的各个阶段:数据采集、数据传输、数据存储、数据处理、数据交换、数据销毁。
每个阶段涉及哪些风险呢?对于企业负责人和数据从业者都有必要详细了解下我国的法律法规,只有知法懂法才能更好的在合规的情况下开展业务。
4. 只有了解数据全生命周期流转机制,才能洞悉有哪些合规风险
4.1 数据采集,合规之源
4.1.1 一方数据:企业业务数据
第一方数据是指企业直接从受众(包括客户、网站访问者和社交媒体关注者)那里收集的数据。
“第一方”是指收集第一手数据用于重新定位的一方。简言之,第一方数据是企业自己收集的消费者信息 – 换句话说,“拥有”。
例如:一家企业可能拥有存储在其CRM系统中的消费者的第一方数据。这类数据可能包含人口统计信息(姓名、联系方式、电子邮件地址等)、购买历史记录、网站互动(仅来自公司网站)等。
第一方的数据因其质量而具有很高的价值,因为你直接从源头收集,直接来自你的受众,你知道它是准确的,知道它与你的业务相关。
第一方数据的另一个好处是,围绕它的隐私担忧保持最小,因为你确切地知道它来自哪里。
4.1.2 二方数据:广告数据、爬虫数据
第二方数据是你自己没有收集的第一方数据——换句话说,你使用的数据是二手的。
卖家直接从他们的受众那里收集数据,而这些数据都来自一个来源,你可以对它的准确性充满信心,直接从拥有它的公司购买来作为第2方数据。
在这样的交易中没有中间人,它要求你寻找拥有你需要的数据的公司,并与他们建立关系。
例如,如果软件公司与代理合作伙伴合作转售其产品,则软件公司可能与代理共享其第一方数据,代理合作伙伴会将其用作第二方数据,以锁定和吸引新客户, 典型的二方数据有广告数据、爬虫数据等。
4.1.2.1 广告数据
大数据变现最成熟的领域也就是互联网广告领域了,其核心是互联网公司通过免费的产品和服务积累庞大的用户(流量),沉淀用户的行为数据,通过大数据建模形成完整的用户画像,然后提供广告位给品牌方进行竞价精准投放,实现流量变现。
涉及到的数据交互有: 品牌方需要上传一定数量的种子人群包,这块存在一定的灰色地带,因为这些人群包的用户数据没有经过用户同意就授权给广告公司使用。
广告点击数据、线索数据回传,一般都广告投放中会有对应的隐私协议,但是否存在过度采集,这块就不好说了。
下图为某大厂的回传的广告监测数据,包含设备id、设备信息、ip及位置信息。大家是不是都有过这种经历,刚在淘宝搜了某商品,然后再抖音、头条、朋友圈就都出现该商品的广告投放信息。
这就是广告技术的威力,更甚者只是随口说了某个商品,居然也被推荐了,这就让人发怵了。
4.1.2.2 爬虫数据
爬虫就像“ 达摩克利斯之剑 ”,能够帮助企业解决数据维度不足的问题,但是无法把控风险程度,以致于企业对爬虫数据都望而却步。
尤其在2019年9月对爬虫数据进行整顿后,大家更是谈爬虫色变,更有大家调侃“爬虫学的好,牢饭吃到饱”。
对于爬虫,爬虫技术无罪,怎么使用爬虫和爬取什么数据就不好把握了。
对于爬取公开数据的搜索引擎就是属于利用爬虫技术爬取公开数据提高大家的检索效率,属于造福大家;而对于风控数据公司这类通过爬虫过度爬取个人信息,如运营商、淘宝、支付宝数据等。
虽然进行了授权,但是否对用户明示采集范围,是否存在过度采集就不一定了。
往往用户是为了使用应用提供的服务而随手点击的授权,缺没有仔细查看授权后会被采集哪些数据,也许只有当客户看到呈现在他面前完整的风控报告后他们才觉得惊悚,感觉隐私被侵犯了。
而这类爬虫技术就属于用爬虫技术爬取了用户相关信息,同时使用场景上也存在不合规,如现金贷业务。《个人信息保护法(草案)》的推出对这类的灰色边界做了比较明确的界定,企业在碰到这类场景时对于红线的把握就要格外注意了。
4.1.3 三方数据
第三方数据是您从外部来源购买的数据,而不是该数据的原始采集者。
相反,您可以从大型数据整合者购买,这些数据整合者从其他各种平台和网站提取数据下载,这些整合者向发布者和其他数据所有者支付第一方数据的费用。
然后,整合者将其收集到一个大型数据集中,并将其作为第三方数据出售。许多不同的公司都销售这类数据,而且可以通过许多不同的途径访问这些数据。
这种通过购买获得的三方数据就更是游走在法律的边缘,合规性存在非常大的问题。
最典型的方式,是通过加密用户id(设备id或者手机号)撞库,直接输出该用户在其他维度的用户标签,来补充一方数据维度不足的问题,然后提高营销的精准度。
下图为某大厂提供的对外用户标签的调用服务:
4.2 数据传输
数据传输的链路一般出现在对内的数据加工流转和对外的数据传输过程,个人信息有没有做加密保护,是否容易数据泄露是考虑的关键问题。
近年来,各种数据泄露现象层出不穷,比如暗网某某酒店信息数据就是数据没有加密的典型,即使泄露了如果用户信息进行了加密,黑客也无法使用。
4.2.1 对内数据加工流程
从整个数据加工流程来看,最容易出事的地方在大数据/算法平台的环节,主要有以下原因:
4.2.1.1 数据流转多角色,管控难度大
- 大数据平台的开发工程师:承担者整体平台的建设工作;
- 大数据平台运维工程师:承担整体平台的运维保障工作;
- 数仓开发工程师:承担数据仓库模型分层标准化工作,也是数据的底层深度使用者,涉及用户最细粒度的数据处理;
- 算法工程师:承担整体数据价值挖掘、模型训练和模型输出工作,会涉及用户的个人信息的处理;
- BI数据分析师:承担整体数据专题分析、报表开发,支撑公司决策的工作,会涉及用户的个人信息处理。
4.2.1.2 数据流转多环节,数据容易泄露
做的好的公司会将所有数据处理的工作管控到一个大的密闭的沙箱环境,严格控制沙箱的数据进出,但沙箱内各个数据流转环节经常出现数据多地存储,最后无法追溯数据的源头。
即使有数据地图的溯源工具,也只能追溯数大数据仓库/数据库的血缘,但对于处理工作中,以文本或表格散落在各个服务器的过程数据文件无法追溯。
4.2.1.3 个人敏感数据的解密加工处理,增加敏感信息的泄露风险
在进行数据分析和算法模型训练时,往往会对个人信息,甚者敏感信息进行解密后加工处理,以便提取内含的个人信息,比如身份证号内含信息如下图:
4.2.2 对外数据传输
对外数据传输一般是数据以服务的形式输出的情况,需采用适当的加密保护措施,保证传输通道、传输节点和传输数据的安全,防止传输过程中数据被截取所引发的数据泄露。
- 传输安全管理,明确数据传输安全要求(如传输通道加密、数据内容加密、签名验签、身份鉴别、数据传输接口安全等),确定需要对数据传输加密的场景。
- 密钥管理安全规范,明确密钥生成、分发、存取、更新、备份和销毁的流程和要求。
4.3 数据存储
对于数据的存储,有结构化数据的存储、半结构化数据的存储和非结构化数据的存储,对不同的数据结构对应不同的存储介质。
- 结构化数据存储:一般使用关系型数据库、MPP数据等,如mysql、oracle、teradata等;
- 半结构化数据存储:一般使用kv数据库,如hbase、mongodb等;
- 非结构化数据:图片、视频的存储,一般使用对象存储,如阿里云的oss、亚马逊的S3等。
对数据存储介质进行访问和使用场景需要提供有效的技术和管理手段,防止介质的不当使用而可能引发的数据泄露风险。
4.4 数据处理
数据处理环节的主要矛盾是敏感信息的脱敏和数据可用性之间的矛盾,主要在数据开发、数据分析和算法建模处理环节,难免碰到对敏感信息的加工处理。
保持脱敏不处理的话会丢失一部分用户的信息,处理的话需要先解除脱敏再进行加工处理,增加的一道解除环节往往对数据的性能造成很大损失。
根据《个人信息保护法(草案)》要求,明确敏感数据的脱敏需求和规则,对敏感数据进行脱敏处理,并且建立不同的敏感等级。
《信息安全 数据安全能力成熟度模型》从制度流程、技术工具和人员能力给予了量化评估:
4.4.1 制度流程
明确列出需要脱敏的数据资产,给出不同分类数据的脱敏处理流程。
明确脱敏数据治理原则和规范,在脱敏策略、评估指标、评估分析和评估方法等方面反映脱敏治理效果。
4.4.2 技术工具
配置脱敏数据识别和脱敏效果验证服务组件或技术手段,确保脱敏的有效性和合规性。
提供数据脱敏组件或技术手段,支持泛化、抑制、假名化等数据脱敏技术。
针对特定的数据使用场景和数据脱敏的策略,部署数据的动态脱敏方案。
4.4.3 人员能力
定期对数据脱敏工作人员的脱敏操作能力进行考核评估。
4.5 数据交换
数据交换主要场景为对外部组织结构提供数据以及通过合作的方式与第三方合作伙伴交换数据。
涉及到个人信息数据交换不仅要从数据安全的角度考虑,还要从法律法规的角度考虑,《个人信息保护法(草案)》明确规定了数据的共享交换需要得到对应用户的同意,目前一些通过输出用户标签提供数据服务的公司对于这点的要求明显不符
4.6 数据销毁
数据全生命周期管理的最后一个环节数据销毁,至少在我工作过的大小公司从来没有见过。
大数据时代,数据要素作为一种资源,大家都强调海量数据,无限存储,可想而知数据销毁这个环节很少有公司做到。
再来看看《个人信息保护法(草案)》要求存储时间要求最短化,这点估计就更难把控了,不过随着立法的要求越来越严,企业势必会进行相应调整遵守相关的数据销魂要求。
5. 总结
写在最后,大数据应用的最成熟的两个领域:一个是金融风控,一个是营销。
风控数据行业在去年9月进行了血洗,营销数据行业的乱象目前还只是零星打击,不过随着《个人信息保护法》颁布的临近,整顿是迟早的事。
作为一个亲历风控数据行业整顿的数据人,深知无论是大厂还是小厂,各种数据合规都不完善,拿着法律条款一个个深查必然一查一个准。
这说明数据行业的数据安全和隐私保护的合规性远远落后法律法规,随着法律的要求越趋严格,大家对数据安全和个人信息保护的意识也越来越强,企业在追求利益最大化的过程中如果不把握好数据这个“潘多拉魔盒”,迟早会为企业带来毁灭性打击。
作者:赵松,微信公众号:松果子聊数字化,数跑科技营销增长平台产品线负责人、阿里云大数据MVP,前阿里影业数据产品专家,7年数字化从业经历。
本文由 @赵松 原创发布于人人都是产品经理,未经许可,禁止转载。
题图来自 Unsplash,基于CC0协议