启示录丨数据交易发展模式之美国篇

数据观  •  扫码分享
我是创始人李岩:很抱歉!给自己产品做个广告,点击进来看看。  

   文 / 马志刚博士

  当前,随着大数据技术和应用的不断发展,大数据对社会生产生活的价值不断凸现,社会各界各领域产生了大数据交换交易的客观需求和现实实践。近年来,各国加紧推进大数据的有价化,探索对大数据进行计价、赋值、交易的可能性。 参照美国数据经纪产业发展模式,以数据开放共享推动大数据交易资源建设,以交易和产品双足运行推动大数据交易时新发展,可能是我国未来大数据交易产业健康良性发展的可选之路。

启示录丨数据交易发展模式之美国篇

一、美国数据交易的典型模式

   ▊美国数据资产交易主要有三种模式:

   第一种是数据平台C2B分销模式。

用户将自己的个人数据贡献给数据平台,数据平台向用户给付一定数额的商品、货币、服务等价物或者优惠、打折、积分等对价利益。例如2011年,美国 Car and Driver 网站通过其网站面向用户提供一款服务,用户只要提供汽车注册车主的汽车型号、车辆年限等信息,即可获得网站提供的各种现金优惠;2013年,美国发布一款“消费者数据库”的新产品,用户通过这款产品可以向其他公司分享自己的部分隐私数据来换取相应的折扣或者是其他好处,比如让航空公司看到你的收入情况可以获得一定数量的会员积分或者下一次航班升舱的补偿;美国personal.com公司是一个初创公司,旨在打造一个将应用软件和结构化用户数据连接起来的交易平台,它允许用户拥有、控制、获取其个人数据并从其个人数据中获益,即向用户提供一个在线“数据宫”(data vault),被划分为称作“精品”(gems)的许多小隔间,本人可以将其个人数据存储在其中并与他人实现共享,用户可以将其“精品”(gems)与亲朋好友进行共享,并将“精品”(gems)的接入权卖给商业机构,从而实现个人数据的货币化,personal.com公司从交易额中抽取10%作为自己的收益。

   第二种是数据平台B2B集中销售模式。

数据平台以中间代理人身份为数据提供方和数据购买方提供数据交易撮合服务,数据提供方、数据购买方都是经交易平台审核认证、自愿从事数据买卖的实体公司;数据提供方往往选择一种交易平台支持的交易方式对数据自行定价出售,并按特定交易方式设定数据售卖期限及使用和转让条件。美国微软Azure、Datamarket、Factual、Infochimps等数据中间平台代理数据提供方、数据购买方进行的数据买卖活动,大多属于此类模式。我国数据堂、中关村大数据交易产业联盟、贵阳大数据交易所、中国互联网优质受众营销联盟(UMA)大数据平台(DMP)等数据中间交易体,大多基本也属于此类模式,例如DMP只面向UMA联盟成员开放,倡导“空平台模式”下的数据握手交易,各个平台间免费互换数据,DMP只提供标签和数据处理模型,由企业自主决定哪些数据可以标记和共享。

   第三种是数据平台B2B2C分销集销混合模式。

数据平台以数据经纪商(data broker)身份,收集用户个人数据并将其转让、共享与他人,主要以安客诚(Acxiom)、 Corelogic、Datalogix、eBureau、ID Analytics、 Intelius、 PeekYou、Rapleaf、Recorded Future等数据经纪商为代表。

二、美国数据经纪商产业发展现状

   在美国 数据交易 的三种主要模式中,第三种数据平台B2B2C分销集销混合模式发展迅速,目前已经形成相当市场规模,塑造了在美国数据产业中占据重要地位的数据经纪产业。

   ▊(一)美国九大数据经纪商

   ——Acxiom。 为市场营销和欺诈侦探提供用户数据和分析服务,数据库中包括了全球范围内7亿用户的个人数据,其中包括涉及几乎每个美国用户的3000条数据段。

   ——Corelogic。 向商业和政府机构提供包括财产信息、消费信息和金融信息在内的用户数据及其分析服务,其数据库中包含7.95亿条资产交易历史数据、9300万条抵押贷款申请信息以及涵盖99%以上美国住宅物业的1.47亿条特定资产信息。

   ——Datalogix。 向商业机构提供涵盖几乎每个美国家庭、涉及金额超过1万亿美元以上的用户交易信息。2012年9月,Facebook宣布与Datalogix建立合作伙伴关系,以便评测其10亿用户在社交网站上浏览某一产品广告的频次与其在某一实体零售店完成购买交易之间的关联关系。

   ——eBureau。 向营销商、金融公司、在线零售商以及其他商业主体提供预测评级和数据分析服务,最早只是分析某人是否可能成为潜在的优质客户或者某笔交易是否存在商业欺诈,后来发展为向其客户提供数以亿计的用户消费记录,而且每月还以300万条新增消费记录的速度在急速增长。

   ——ID Analytics。 主要提供以身份认证、交易欺诈检测和认证为目的的数据分析服务,其认证网络中包括了数以百亿计的数据集成点(aggregated data points)、11亿条独特的身份数据元素,涵盖了14亿条用户交易信息。

   ——Intelius。 向商业机构和客户提供背景调查和公开记录信息,其数据库中包含了200亿条以上的公开记录信息(public record information)。

   ——PeekYou。 拥有能够分析60家社交媒体网站、新闻来源、网站主页、博客平台内容的专利技术,向客户提供详细的用户配置文件(consumer profiles)。

   ——Rapleaf。 是一家数据集成商,拥有一个以上能够连接超过80%以上美国用户电子邮件地址的数据点以及30个其他类型的数据点,并且不断在其电子邮件地址列表中增补电子邮件用户年龄、性别、婚姻状况等信息。

   ——Recorded Future。 通过互联网捕捉用户和企业的各类历史数据,利用该类历史 数据分析 用户和企业的未来行为轨迹,截至2014年5月,已经实现对502,591家不同开放互联网站点各类信息的接入和抓取功能。

   ▊(二)美国数据经纪商的数据采集

美国数据经纪商不是直接从用户处收集数据,而是主要通过政府来源、商业来源和其他公开可用来源等三个途径收集数据。由于一个数据经纪商只能提供一个用户行为轨迹所需的很少数据元素,因此数据经纪商必须将其所掌握的数据汇集起来,描绘出用户生活更加复杂的多维图景。

   ——联邦政府数据源。 上述9家数据经纪商中的6家直接从联邦政府渠道获得其所需要的数据。

   ——地方政府数据源。 有些数据经纪商并非直接从地方政府获取其所需要的数据,而是通过其他数据经纪商获取其所需要的地方政府数据,后者往往通过雇佣人员对地方政府官员展开公关,以便获取对地方政府数据进行编纂和整理的机会;或者与地方政府具有业务往来关系,地方政府同意其在业务往来中自动收集、获取地方政府数据。上述9家数据经纪商已经认可25家其他数据经纪商为能够从地方政府合法获取地方政府数据的数据经纪商。但是几乎所有的地方政府立法均规定,使用这些地方政府数据需要取得数据本人同意和授权。

   ——公共数据源(包括社交、博客、互联网等)。 一半以上数据经纪商表示他们收集通信录、电话本、新闻报道等其他可用公共数据。有些数据经纪商从Bebo、LinkedIn等社交媒体网站直接抓取信息,这些社交媒体网站的用户尚未设定隐私设置以限制其个人信息访问,所以社交媒体网站便授权数据经纪商接入并获取这些用户个人信息。

   ——商业数据源。 除1家数据经纪商外,其余9家数据经纪商都通过广泛的商业渠道来购买其所需要的用户个人数据。例如,数据经纪商从零售商、产品目录公司等渠道购买详细的商品交易信息,部分数据经纪商还从期刊发行商那里购买详细的用户订阅类型。3家数据经纪商从用户注册网站处获取用户名单列表,用户注册并登录这些网站的目的往往是为了获取其所需要的零售、新闻或旅游等特定服务。有些数据经纪商从金融服务公司处获取其所需要的集合交易数据(aggregated transaction data),其中既有敏感数据也有非敏感数据。有些数据经纪商声称从其商业合作伙伴或金融服务公司客户处直接获取数据,以便为该特定客户定制、增强某种特定产品或服务,或者在其他产品或服务中以集合、去身份化方式使用这些数据。其他诸如社交媒体信息来源于与非客户企业之间签订的具体合同安排。至少有1个以上数据经纪商从网络广告中获取用户的浏览器行为信息。

   ——互为数据源。 数据经纪商的绝大多数商业数据源实际上来自上述9家数据经纪商之外的其他数据经纪商,例如,收集电话公司新开固定帐户用户信息的数据经纪商,收集汽车经销商销售、保修、售后服务、修理等信息的数据经纪商,针对2600多家商家近19亿个人用户的消费历史进行数据汇聚和建模的数据经纪商,收集体育比赛、市场调查、保单登记等活动中用户以有线无线等方式提交申报信息的数据经纪商等,一家专门收集此类信息的数据经纪商拥有近24条用户申报信息,并将其分为1000多种兴趣类型。部分数据经纪商共享同一数据源,每一家数据经纪商都能从不同数据源收集到相同或相近的数据,例如,有一家数据经纪商从20多个数据源获取其用户联系数据。9家数据经纪商中有7家相互买卖其所需要的数据,因此,用户几乎不可能知道谁是特定数据元素的最早创建人,必须经过一系列中间数据经纪商才能追溯到数据流动轨迹并最终追寻到原始数据源。

   (三)美国数据经纪商的产品类型

数据经纪商通常提供市场营销产品、风险控制产品和人员搜索产品等三类数据应用产品。2012年9家主要数据经纪商的三类主要数据产品全年总收入大约为4.26亿美元。

   1.市场营销产品

有5家数据经纪商面向其客户销售自己的市场营销产品,2012年全年营业总收入大约为1.96亿美元。美国联邦贸易委员会(FTC)将数据经纪商的数据营销产品分为下列几类:第一类是直销产品,包括邮件、电话营销、电子邮件营销等三类;第二类是在线营销产品,包括通过互联网向用户进行营销(互联网营销)、通过移动设备向用户营销(移动营销)以及通过有线电视和卫星电视向用户营销(有线电视卫星电视营销)等三类;第三类是营销分析。所有这三类产品都能使数据经纪商的客户面向其客户量身定制各类市场营销信息。

   1)直销产品

以所收集到的数据为基础,美国联邦贸易委员会(FTC)将直销产品分为数据追加(data append)产品和营销清单(marketing lists)产品两类。

   ——数据追加( data append)产品

数据追加(data append)产品能使企业更多地了解用户和市场。客户会要求数据经纪商雇员提供姓名、地址等用户信息,雇员接着会选出用户电话号码、购买习惯等额外信息,这些额外信息是数据经纪商追加在客户数据集中以供其用于直接电邮、电话营销以及电子邮件营销活动的附加信息。有些数据产品能够帮助客户填补其用户联系信息中的空白,例如,客户提出用户的姓名和地址,数据经纪商填补对应的用户座机电话号码和电子邮件地址,换言之,客户提出用户的座机电话号码、移动电话号码和电子邮件地址,数据经纪商填补对应的用户姓名和地址。在有些数据追加产品中,客户提供用户的姓名和店铺的邮政编码,数据经纪商填补对应的用户地址。有些数据追加产品能够帮助客户更好地理解其用户,当客户提供用户的身份识别信息时,数据经纪商马上能对客户数据集进行数据追加,许多数据经纪商能向客户提供包括年龄、信仰、技术偏好、性别、种族等许多信息在内的原生和派生数据元素。

   ——营销清单产品

市场营销清单能够识别具有特定相同特征的用户(例如与2个以上孩子共同生活的所有人群,2个以上拥有专车品牌的妇女,对糖尿病感兴趣的所有人群,成员中有吸烟嗜好的家庭等)。客户从用户受众中识别出身份属性和身份特征,数据经纪商提供拥有这些身份属性和身份特征的用户清单,例如,客户要求提供一份“被银行拒绝提供服务”或者“具有财务挑战”用户的清单,以便向其推送次级贷款广告或者提供其他服务。营销清单产品可限于用户姓名或地址,以便向其发起直接邮件活动;可限于用户姓名和电话号码,以便向其发起电话营销活动;可限于用户电子邮件地址,以便向其发起电子邮件营销活动。客户希望得到强健的数据以便适时调整其市场营销活动,数据经纪商需要根据数据追加产品描述,在数据营销清单产品中增加一些其他数据元素或者数据字段,例如客户要求提供一份特定地区对美食烹饪感兴趣的用户清单,以便向其发起直接邮寄活动,除用户姓名和地址之外,数据经纪商需要在数据营销清单中叠加用户年龄或年龄段、家庭收入等相关信息。

   2)线上营销产品

有3家数据经纪商直接或间接通过互联网、移动设备、有线电视或卫星电视向用户营销特定商品。美国联邦贸易委员会(FTC)将数据经纪商的线上营销产品分为注册用户瞄准(registration targeting)、合作伙伴瞄准(collaborative targeting)和线上线下追踪(onboarding)产品三种类型。

   ——注册用户瞄准(registration targeting)产品

数据经纪商能够更有效、更贴近用户体验地帮助注册网站向用户推广产品。例如XYZ旅游网站希望向用户推送特定旅游产品,它可以向数据经纪商提出一份它自己的注册用户列表,数据经纪商向XYZ旅游网站逐一提供所有注册用户的旅行兴趣,在这些信息的帮助下,XYZ旅游网站根据Jane Doe对热带岛屿的特殊爱好为其量身定制了一份夏威夷的旅游套餐,当Jane Doe登录网站时便将这份套餐推送给她。当 XYZ旅游网站不想为个人注册用户提供旅游套餐产品,而是希望在其网站上销售第三方广告空间时,它可以先向数据经纪商提供一份其注册用户列表,数据经纪商告诉XYZ旅游网站其大多数用户喜欢摩托车和家用清洁用品,依据这些信息, XYZ旅游网站便可面向摩托车经销商、家用清洁用品生产制造商兜售其网站广告空间。

   ——合作伙伴瞄准(collaborative targeting)产品

在注册用户瞄准(registration targeting)服务中,数据经纪商既向注册网站提供数据服务、也向注册网站的广告商提供数据服务,注册网站向数据经纪商提供一份用户列表,注册网站的广告商也向数据经纪商提供一份其自己客户的列表清单,数据经纪商发现双方均未实际接入对方客户、潜在客户以及注册用户的个人信息,只有数据经纪商同时拥有双方所有客户或用户的所有个人信息,于是它可以替广告商提供数据分析服务,以便广告商决定是否继续在该注册网站上投放广告。

   3)线上线下追踪(onboarding)产品

在线上线下追踪(onboarding)产品中,数据经纪商在cookies文件中植入登录用户的离线数据,以便广告商在互联网上能够垂直地搜寻到所有目标用户,广告商可以根据客户的离线行为数据来决定是否通过互联网向其在线推送广告信息。线上线下追踪(onboarding)的需求方可以向数据经纪商提供其客户的相关数据,以便数据经纪商能够在互联网上发现这些客户并向其推送广告商定义好的广告内容;也可以委托数据经纪商识别共同拥有特定属性或特征的消费者受众,在互联网上发现并定位这类消费者受众人群,并向其推送广告商定义好的广告内容。线上线下追踪(onboarding)产品往往采取字段定义、线索匹配和在线目标锁定三个步骤。

   ——字段定义(segmentation)

线上线下追踪(onboarding)开始于客户向数据经纪商发出搜寻具有特定特征属性用户的要求,数据经纪商基于预期客户的要求可能创建过股票数据字段、海关数据字段等等,这一过程被称为字段定义。例如,数据经纪商可以基于其定义好的数据字段,通过锁定服装零售商已有用户、为服装零售商发掘新的用户等多种方式,帮助服装零售商向其用户在线推送奢侈时装品牌的广告。

   ——线索匹配(matching)

线索匹配是指数据经纪商通过数据字段的在线处理来搜寻、发现其已识别的用户的过程。为了发现在线用户,数据经纪商往往与注册网站订立合同购买注册用户列表,然后将这些注册用户列表与通过数据字段处理程序识别、发现的用户进行比对,以便在两者中发现能够匹配的重合线索,一旦发现匹配线索,数据经纪商便会将与该用户有关的所有数据元素和数据字段追加在该用户的数据库列表之中。

   ——在线目标锁定(targeting consumers online)

锁定已经匹配好的在线用户是线上线下追踪(onboarding)活动的最后一道程序。当注册网站通知数据经纪商其先前识别的用户现已在线并且正在浏览本站,数据经纪商立刻在已识别用户的浏览器中植入一个cookies, cookies包含了数据经纪商追加在用户身份属性上的所有相关信息,尽管接受调查的数据经纪商异口否认其cookies中含有姓名、电子邮件地址、邮政地址等传统意义上的用户身份信息。当数据经纪商将其cookies植入用户浏览器以后,只要该cookies留存在用户浏览器中不被删除,数据经纪商就可以通过互联网向该用户推送广告。数据经纪商类似于通过在各种不同网站购买广告空间组成了一个自管理广告网络系统,这些广告网络系统在每个网站都拥有安全的广告空间,从而可以任意向这些广告空间投送其所定义的广告内容。例如数据经纪商在Jane Doe的浏览器中植入含有“女性”、“邮政编码为12345”、“老练的顾客”等字段的cookies,代理时装零售商或者其他线上线下客户在其合作伙伴网络中向Jane Doe推送广告。线上线下追踪(onboarding)产品客户还可以使用该产品从事用户重定向(retargeting)、跨渠道销售(Cross-Channel Campaigns)等活动。所谓用户重定向(retargeting),是指线上线下追踪(onboarding)产品客户利用其用户和厂家名单通过互联网向其发出特定广告要约,例如,借贷银行希望重定向(retargeting)其财务困境客户并向其发出新的次级信用卡申办要约,宾馆希望重定向(retargeting)其高端优质会员客户并向其发出度假旅游的广告邀请等。所谓跨渠道销售(Cross-Channel Campaigns),是指零售商希望锁定多个渠道的相同用户,例如,宠物商店希望通过直接邮寄、电子邮件、互联网广告等方式向宠物主人兜售犬用香波,通过线上线下追踪(onboarding)产品,它发现了其曾经发送过直邮或电邮广告的宠物主人,于是锁定他们并同时向其推送互联网广告。需要指出,尽管数据经纪商利用用户离线活动信息向其推送在线广告,但是他们并未计划使用用户浏览器在线活动信息来识别、追踪其离线活动,但是有报告指出部分数据经纪商确实利用用户浏览器在线活动信息线下向其推广直销产品。

   4)市场分析产品

有5家数据经纪商从事以市场营销为目的的市场分析活动,以便预测用户行为。市场分析产品能够帮助数据经纪商客户在广告推广、产品改进、社区竞选等活动中更加精准地瞄准并锁定目标用户,并且深度洞察和窥探用户态度和偏好。例如,数据经纪商深度分析其客户的用户的相关数据,建议其客户通过互联网、报纸、电视等媒体渠道面向目标用户或者面向特定地域推送特定产品或品牌的广告信息。

作为市场分析的重要组成部分,数据经纪商还帮助其客户分析、计算各种营销策略的预期结果,以使其客户能够更好地向其用户推送产品广告信息,例如,数据经纪商可以向其客户预测完全通过twitter进行广告推送是否能够达到预期的广告效果。有些数据经纪商向其客户提供广告活动影响结果的评估服务,这些数据分析产品往往包含一个奠基于成千上万个数据元素之上的算法模型,包括其客户提供的历史数据、数据经纪商从政府部门收集到的数据、商业来源数据以及其他公共可用数据,都是该算法模型的参数数据。例如,电信运营商在线推广其新款移动设备之后,可能想知道有多少用户浏览过这个广告、有多少用户去过实体店以及有多少用户实际购买过这一新款移动设备等详细数据。部分数据经纪商将其分析数据转化成市场营销评级产品,根据对市场营销活动的不同响应或不同潜在响应将其客户的用户分为不同的级别,客户可以根据市场评级来识别、瞄准用户,或者针对低响应率用户发送直邮广告;客户也可以根据市场评级来识别低收邮率(high undeliverable mail rate)的地址或者低购买率的用户。

这些市场评级产品还可被用以定义用户愿意接收广告要约的类型、广告要约的数量以及面向特定用户提供的服务质量水平。其他评级产品还能够用以测定用户在互联网上的在线离线状态、用户对其他非用户群体的影响等。这些评级产品通常是通过分析计算用户博客活动、参与Facebook和twitter等社交媒体网站的活动情况、用户拥有的好友跟随者读者数量、用户在互联网上创建的信息内容数量以及用户的新闻知名度,客户使用这些社会影响评级结果能够准确地向特定用户推送其产品的广告信息,并且希望其用户能够向自己的好友、跟随者宣传、推广这些产品。

   2.风险控制产品

接受调查的10家数据经纪商中有4家面向市场销售其自己开发的风险控制产品,2012年的年收入总额为1.77亿美元。美国联邦贸易委员会(FTC)将风险控制产品分为身份认证产品(identity verification)和欺诈侦测(fraud detection)产品两类。

   ——身份认证产品(identity verification)

身份认证产品能够帮助客户确认其用户的身份。基于多种原因和需求,客户非常愿意使用数据经纪商提供的身份认证产品,例如,银行使用这种身份认证产品以便能够满足《爱国者法案》(the USA PATRIOT Act)中“了解你的客户”身份验证要求或者在用户启动一笔金融交易时为其进行在线欺诈侦测。数据经纪商采取各种不同格式面向客户推广其身份认证产品。

   首先, 数据经纪商向其客户提供一份评级表格,上面标明了交易关联风险水平的数值评分级别,同时附有该数值评分级别的详细说明。针对高风险评分客户,评级说明会指出该用户提供的社会保障号码(SSN)与某个死者有关,用户正在使用的住所与某个欺诈案件有关或者该住所是一所监狱的住所,该社会保障号码(SSN)在某个较短时限内被连续不断地频繁使用,或者该社会保障号码(SSN)隶属于用户提供住所之外的另外一个住所等。

   其次, 数据经纪商向其客户提供一份调查问卷产品,作为独立产品或者提供身份真实性验证的附加产品,上面标明用户容易回答但不会出现在身份盗取者窃取信息中的一些典型问题,例如隐藏在用户钱包里的信息。这些信息通常会包括“哪些是你曾经使用过的邮件地址?”或者“你妈妈的生日是哪一天?”,当其被与某个评级产品关联使用时,如果用户的风险评级水平较高,数据经纪商的客户会要求其用户正确回答6个问题中的5个;如果用户的风险评级水平较低,数据经纪商的客户只要求其用户正确回答6个问题中的3个。

   再者, 数据经纪商提供一份“匹配/不匹配”表格,用于验证用户提供的信息是否与数据经纪商的数据库信息相匹配,数据经纪商有时会提供一个“接近匹配”选项,例如,发现一个电话号码中的两个数字似乎已被调换了。有些数据经纪商还提供一种名为“身份状态验证(status verification)”的产品,既能提供用户身份识别又能揭露用户身份现状。身份状态验证产品(status verification)能够揭示用户是否是一名现役军人、向其提供特定抵押品止赎权(foreclosure)的担保保护,或者标明用户是否被列为政府采购合同的禁用名单。数据经纪商还提供就业状况的认证产品,例如X用户为Y雇主工作。

   ——欺诈侦测产品( fraud detection )

有些数据经纪商还面向客户销售欺诈侦测产品(fraud detection),帮助客户识别并减少商业欺诈,例如,有的数据经纪商提供一种标明用户电子邮件是否存续较长时间或者是否具有关联交易历史的产品,有的数据经纪商专门追踪用户的住址信息,帮助公司和企业侦测与尝试欺诈有关的方式和模式,例如指出交货地址与清单列表用户无关等。欺诈侦测产品(fraud detection)还能帮助企业或组织确证用户提交信息的可靠性、真实性,例如,某项公共福利是根据用户收入水平制定的,在用户填写了其收入状况以后,数据经纪商从广泛的人口统计数据便能够推断并确证这些信息的可靠性和真实性,或者在征求用户同意以后,根据用户国税服务(Internal Revenue Service)纳税退税申报表来确证用户收入申报信息是否可靠和真实。数据经纪商的欺诈侦测产品(fraud detection)还能建立分析模型,帮助发生过数据泄露的公司或组织来检测被泄露个人数据是否存在滥用的可能,如果被泄露数据包含了用户的社会保障号码(SSN),公司组织可以向数据经纪商提供一份所有社会保障号码(SSN)的列表清单,委托数据经纪商监测列表中某个特定社会保障号码(SSN)是否突然与多个不同地址发生了关联,从而监测并锁定某个潜在的欺诈事件。

   3.人员搜寻产品

上述9家数据经纪商中有3家面向市场销售其自己开发的人员搜寻产品(people search products),2012年的年收入总额为0.52亿美元。人员搜寻产品(people search products)往往包含了从政府部门或社交媒体网站等其他公共可用数据源所获得的用户相关信息,这些信息通常独一无二,供潜在的个人用户使用,但也可同时被公司等组织使用。用户通常使用人员搜寻产品(people search products)来追踪公司高管或竞争对手的行为信息、搜寻老朋友、研究用户潜在的爱好兴趣或其邻居情况、在线检索或定位用户的法庭记录等。人员搜寻产品(people search products)主要提供用户个人数据,这类产品能使用户基于最少的数据元素便能发现最多的用户相关信息,包括姓名、住所、城市、所在州、固定电话号码、移动电话号码、电子邮件地址、用户姓名、社会保障号码(SSN)等,具体而言,包括了别名、婚姻记录、年龄和出生日期、电子邮件地址、新闻故事、犯罪记录、电话号码、离婚记录、性别、民事记录(包括破产、扣押、留置、法院裁判等)、兴趣和偏好、住所历史、财产所有权和销售历史(包括举债活动)、教育信息、死亡记录、社交媒体信息(包括用户名、页面URL、朋友关系等)、亲戚亲属、邻居(包括性侵犯者)、就业历史等详细信息。有些数据经纪商提供免费的人员搜索服务,但也有数据经纪商提供付费的人员搜索服务。数据经纪商通常会提醒用户不要将上述个人数据用于《公平信用报告法案(FCRA)》规定以外的其他目的,包括就业资格认定、信用评级、保险费评定、房屋买卖以及其他类似或相同目的。

   (四)美国数据经纪商( Data brokers )的产业特征

   ——数据经纪商通过多种信源广泛收集用户个人信息,绝大多数情况下用户对此并不知情。 数据经纪商往往通过商业、政府及其它公共途径收集用户个人数据,收集的数据种类包括破产信息、选民登记信息、用户消费信息、网络浏览器运行信息、担保品登记信息、用户日常互动的细节信息等等。

   ——数据经纪产业由多层互为提供数据的数据经纪商所组成。 数据经纪商不仅为终端用户提供数据,同时也互相互为提供数据。绝大多数数据经纪商的数据来源于其他数据经纪商,而不是某一固定原始信源。

   ——数据经纪商收集、存储着海量数据元素,几乎覆盖了每个美国用户。 数据经纪商的数据收集范围几乎涵盖了每个美国家庭和每笔商业交易,例如一家数据经纪商的数据库中储存了1.4万亿条用户交易信息、7000亿条集成数据元素;一家数据经纪商的数据库中存储了1万亿美元的用户交易信息;另一家数据经纪商逐月添加30亿条新的数据记录;还有一家数据经纪商拥有几乎每个美国用户的3000条数据段。

   ——数据经纪商联结并分析用户数据,以便做出包括潜在敏感推理在内的用户推理。 数据经纪商从用户数据中推理用户兴趣,根据用户兴趣结合其他信息对用户进行分类,有些分类如“狗主人”、“冬季运动爱好者”、“邮件按序应答者”等是无害的,有些分类自一开始便聚焦于伦理和收入问题,如“城市抢夺人”、“移动式搅拌器”等便聚焦于低收入的拉丁美洲人和非裔美国人,因此属于“潜在敏感分类”。

   ——数据经纪商将线上线下数据与市场用户的在线数据相结合。 数据经纪商依托网站注册功能和浏览器cookies抓取跟踪功能来发现用户在线行为轨迹,推理用户离线行为特征并向其推送在线互联网广告。

   (五)美国数据经纪(Data brokers)产业的利弊分析

   ——用户能从数据经纪商收集、使用数据的众多目的中真正获益。 数据经纪产品能够预防欺诈、增加产品销量、向用户推送量身定制的广告。

   ——与此同时,许多数据的收集和使用行为对用户造成一定程度的风险。 如果用户因数据经纪商的错误而不能完成一项风险控制产品的交易,用户往往因不知情而使自己受损;有些营销产品的分级定级程序对用户并不透明,使得用户对其较低评级无所适从并减轻其负面影响,使得自己永远处于次级信用评级从而无法获得部分公司提供的部分高端服务。

   ——数据经纪商一定程度上会向用户提供其个人数据的选择权,但是这些选择权绝大多数情况下是不完整、不可兑现的。 用户通常情况下不知在哪里去行使其选择权;数据经纪商提供的“选择退出机制”往往并未明确指出用户是否可以对其所有个人数据均可选择退出,从而导致“选择退出机制”在具体实施过程中非常混乱;许多市场营销产品为用户提供的选择权往往含糊不清,许多风险控制产品甚至并未向用户提供其个人数据的接入功能以及错误数据的修改删除功能。

   ——储存用户数据永远都具有不可预知的安全风险。 虽然存储数据对于实现未来商业目的是有益的,但是数据存储的安全风险可能要远远大于其商业利益。

三、我国 大数据 交易存在的问题和建议

  2014年1月,我国北京中关村成立了第一家大数据交易平台,随即成立了由70多家大数据企业参加的中关村大数据交易产业联盟。时至今日,上海、贵阳、武汉等地陆续尝试性建设运营了多个大数据交易平台。 总结各地大数据交易平台的发展现状,我国大数据交易实践存在的问题:

   ▊一是数据缺乏开放共享影响交易数据的量体规模。

各地各行各业普遍缺乏开放共享数据的主动性、积极性,部分行业开放数据助力大数据交易流通的服务意识不足,不能满足大数据交易产业对数据源的实际需求,长期看必然影响数据交易产业的量体和规模。

   二是交易数据脱离信息网络基础设施静止不转。

数据必须依附于云平台、内容分发网络(SDN)等信息网络基础设施进行流动,才能展现出其应有的资产价值;离开信息网络基础设施,数据容易板结化、固态化、静态化和僵尸化,其资产价值会与时衰减甚至消失。这就要求数据交易机构应当以自建或租用等方式,发展自营的数据库、云计算、边缘存储和分发设施,至少在局域范围内拥有数据和基础设施的联合体,以信息网络基础设施作为自营数据资源着床发育的母体,以自营数据资源作为信息网络基础设施滋生繁衍的新生体,只有两者联合互动,才能使数据价值枝繁叶茂,否则,如果数据资源脱离了信息网络基础设施,就容易变成静止不转的板结数据、固态数据、静态数据和僵尸数据,不仅将使交易数据的价值难以得到正常发挥,而且长期看可能不利于数据交易产业的良性发展。

   三是交易数据脱离数据信任源进行离心偏转。

数据资产不同于传统资产的一个显著特征,就是新的数据不断产生能够补充并代替旧的数据,经济学上称之为永久可再生性和永久可流动性。只要可信的数据信任源不断运行并开展正常社会生产生活活动,那么新的数据就会源源不断被生产出来,并以“活水资源”形式被补充到原有的数据流之中去,从而形成一幅生生不息的数据长河。数据一旦脱离其原生可信数据源,就变成无本之木、无源之流,不但导致数据逐渐失去其真实性、可靠性,而且也会导致数据资源价值日渐枯竭,致使数据交易涸泽而不能渔,无法进行可持续的良性发展。

   四是交易数据脱离应用和产品而无效空转。

数据资产不同于其他传统资产的特征之一,就是它不具有排他性,可以无限复制并呈辐射状蔓延开去。根据产权交易理论,没有排他性的资产标的可以形成无节制的“免费搭车”,外部性效益增加的同时其边际效益不断递减,而资产所有人的边际成本不仅并未出现同步递减相反却出现额外递增,从而造成交易成本奇高无比,导致交易价格渐趋为零并最终丧失可交易性。正由于此,美国数据经纪商在进行数据互为交易、流转的同时,着力于利用自身的数据优势,开发数据营销产品、风险控制产品、人员搜寻产品等各类适销对路的数据应用和数据产品,资源、应用、产品三位一体、三足鼎立、三箭齐发,从而取得市场制胜的可靠法宝。数据如果脱离应用和产品,就会陷入“免费搭车”的外部性陷阱,数据无限空转的同时,数据交易机构的合法权益也得不到有效的保障,最终将限制甚至窒息数据交易产业的良性发展。

   参照美国数据经纪产业发展模式,以数据开放共享推动大数据交易资源建设,以交易和产品双足运行推动大数据交易时新发展,可能是我国未来大数据交易产业健康良性发展的可选之路:

   ▊一是大力推进公共数据开放共享。

坚持政府数据以开放为原则、不开放为例外,坚持政府数据开放先行、公共数据开放跟进,推进落实公共数据开放共享,为数据交易产业提供不竭资源源泉,活跃、繁荣数据交易产业,做大作强数据交易产业量体。

   ▊二是夯实大数据交易基本功能。

鼓励数据交易机构积极探索实践,推动大数据供需有效对接,搭建大数据讨价议价撮合机制,探索大数据交易交割模式,增强大数据流通变现能力,引导大数据资源以多种价值形态参与社会生产生活活动。

   三是构建适用于大数据交易的云端集散中心。

鼓励数据交易机构积极申办云存储中心、对象存储空间、可寻址存储空间、云数据多点共享协同中心、集聚式自助管理系统、中央存储平台等云交易系统,通过云平台实现数据集中,形成自主可控且能增值利用的大数据集散中心。逐步面向社会公众开放数据接口,引导第三方数据开发者和社会力量对数据进行社会化开发、汇聚和整合,推动大数据按照等价支付、有序流动的原则在云架构中进行自由流动,带动整个数据价值链的规模化发展。

   四是与数据源保持同步更新数据。

数据交易机构应当与数据源签署明确的数据更新协议,按照数据源数据升级时间表的频度,与数据源按日、按周、按月、按半年或按年同步升级数据。由于用户本人往往是最原始、最可靠的数据源,为了激发基于用户身份信息(PII)的用户端应用和服务的创新浪潮,用户应当被赋予明确的权利,以便其能够以可行、机器可读的方式接入用户个人数据,使得用户能够表达其政策诉求、使用偏好和缔约要求,推动用户和数据源签约公司共同参与大数据的治理和精用。

   五是推动大数据交易和大数据应用连体融通发展。

数据交易机构应当瞄准重要行业的重大应用需求,利用前沿性的大数据分析挖掘技术,实施大数据资源价值的深度分析和关联开发,探索富具市场特色、满足市场特需的数据创新应用模式,形成适用于重点行业大数据挖掘技术、分析流程、领域模型等关键应用和产品。

   六是打造全国性的大数据交易产业链。

数据交易机构应当以推动数据资源开放、流通、应用为宗旨,广泛聚集大数据提供方、数据开发者、大数据交互平台、大数据使用方及数据投资者,推广应用个性化医疗、数字金融、智能交通、精准营销等基于大数据的新型商业模式,在基础设施、数据资源、数据应用等关键环节形成产业合力,打造全国性的大数据流通、开发、应用产业链。

   注:本文作者:马志刚博士,来源:马博士权利计算服务,版权著作权属原创者所有,以上内容不代表数据观观点,编辑:Fynlch(王培),数据观微信公众号(ID:cbdioreview),欲了解更多大数据行业相关资讯,可搜索数据观(中国大数据产业观察网www.cbdio.com)进入查看。

责任编辑:王培

随意打赏

启示录美国启示录2
提交建议
微信扫一扫,分享给好友吧。