荐读|电信大数据关键技术挑战
大数据逐渐对用户体验和生产效率带来颠覆性影响。电信大数据来源于运营商通信网络平台的BSS和OSS,沉淀了海量用户7个维度的信息:1维用户真实ID、1维行为数据、1维社交数据、1维时间数据和3维空间数据。运营商构建电信大数据分析平台,通过对7维用户数据建模,可以实现3个数据业务方向的升级:用户洞察、网络洞察和数据开放。着重探讨电信大数据分析平台遇到的9个关键技术挑战和可能的技术突破方向。
图 1 电信大数据平台的目标
图 2 融合 BSS 和 OSS 数据
图 3 7 维度用户数据建模和 7W 洞察
电信大数据分析面临9个关键的挑战,分别是特征工程、预测算法、根本原因分析、实时分析、时空数据挖掘、知识工程、多媒体挖掘、图挖掘和隐私保护。
3.1 以时空数据为核心的特征工程
随着移动设备和移动互联网的普及,随时随地使用移动终端已经成为人们的一种基本生活习惯。因而电信数据成为获取城市用户、区域细粒度时空行为信息的重要数据源。这些细粒度行为信息可以被用作建模的重要特征,从而大幅提升电信数据挖掘效果[1]。
因为电信数据来自多个数据源,如BSS(B域)的数据来自CRM(customer relationship management,客户关系管理)、账单、BI(business intelligence,商业智能)、客服和渠道等系统,OSS(O域)的数据来自于MR(measurement report,测量报告)、Gn口和Mc口等系统,时空和用户ID关联是把这些数据整合成统一特征集合的关键因素。以时空数据为核心的特征工程需要结合B域和O域进行关联分析,找出网络和用户特征的关联性。
如图4所示,复杂的特征工程可以在以时空数据为核心的各种数据类型上构建。如人的社交关系可以表述为电话网络、短信网络和接触网络(两个人在相近时间、相近地点出现算是一次有效接触)。每个电话、短信或接触都有发生的时间和地点。需要设计有效的算法研究如何在这种有时空约束的图中提取反映用户复杂社会关系的特征。另一个例子是将用户的账单、影响力或者离网行为映射到每个位置上来评估每个位置的价值,从而可以得到高价值用户或者离网用户聚集的位置,开展基于位置的服务和营销。同时也可以构建基于用户行为的基站投资分析,得出精确基站选址目标。
3.3 根本原因推断辅助商业决策
图 6 根本原因推断算法辅助商业智能
3.4 实时分析能力逐步成为基本需求
OSS数据的一个特点是更新速度快,如用户对网络的体验、网络故障诊断和位置更新信息,都是在秒级或者分钟级采集产生的。这些数据一旦不及时处理分析,将失去商业价值。例如,客户当时上网体验不好(例如无法使用支付宝或者微信支付出租车费),很有可能会即时拨打投诉电话,因此需要即时得到分析结果,并做一些补偿措施,给用户良好的体验。又例如网络故障诊断,需要在故障发生之后,立即分析并隔离相关的网络单元,启动备用方案。基于位置的营销需要及时判断用户的当前位置,推送附近商铺的合理产品,或者是当用户靠近营业厅附近时,推送合适的业务服务。实时分析能力需要流处理架构和在线学习算法,通过统计、预测一个短时间窗口内的数据流,迅速更新模型参数,并做出决策。之后的决策都基于模型,不需要重新学习历史数据,因此大大加快了模型的更新速度和分析速度,达到实时处理的目标。尤其对于海量OSS数据,流处理和在线学习技术是非常必要的。另一个挑战的技术方向是时间序列的挖掘,如何在数据流中快速捕捉数据在时序上的依赖关系(上下文关系),做出准确的预测,仍然十分困难,需要持续研究。
3.5 时空数据挖掘
3.6 知识管理是智慧延展的基础
图 8 知识图谱用于沉淀并管理业务知识
3.7 多媒体数据挖掘
图 9 深度学习技术应用于多媒体数据挖掘
3.8 图数据挖掘与社交分析
3.9 隐私保护
电信数据含有用户的通信行为、消费行为、互联网行为、社交行为和时空行为等高隐私信息。隐私保护是需要考虑的一个核心技术。当前隐私保护最有效的方法是差分隐私保护[5]。差分隐私将数据分析人员和分析数据隔离,保证攻击者在有任何背景知识的情况下,都只能以极小的概率区分某个特定用户是否在数据集中。如何将差分隐私保护紧密地结合在电信挖掘的算法中是一个值得研究的课题。从当前实际系统需求分析,另外一个更加重要的隐私问题是防止数据滥用技术的研发。当前数据挖掘都是经过用户授权使用数据,但是电信运营商为了保障数据隐私安全,要求分析人员只能在严格控制的内网分析匿名数据,从而隔绝分析人员和分析数据。而推荐系统等应用需要不断迭代的特征工程以保证最优的挖掘效果,在这种场景下的分析技术尚不成熟,例如无法不断迭代特征工程来保证推荐系统等应用的最优挖掘效果。实际商业中最紧迫的场景是和第三方合作,即授权第三方使用数据完成某项数据挖掘任务(用户授权情况下)时,如何限制分享的数据只能被用在这个特定的数据挖掘任务而不被使用在任何其他场景,即阅后即焚的功能。
内容来源:大数据期刊