基于大数据的移动互联网主动运维理论和实践进展

我是创始人李岩:很抱歉!给自己产品做个广告,点击进来看看。  

基于大数据的移动互联网主动运维理论和实践进展

文 | 杨慰民

摘要:对于非话音的移动互联网业务,即使网络指标是完好的,仍然存在用户感知不佳的现象。基于大数据技术研究用户感知和网络性能指标的关系,提出基于样本空间置换的五元五阶模型实施主动运维,先于用户投诉发现并解决感知不佳问题。相比传统的运维模式,主动运维模式以网络性能管理为基础,能快速发现网络中各节点之间的性能失衡、趋势异常等隐性问题。运维人员根据分析结果主动出击,在故障发生前精确优化,降低成本,提升网络质量及客户满意度。

关键词:移动互联网;大数据;用户感知;性能分析;主动运维;五元五阶;样本空间置换

1 引言

大数据、移动互联网、社交网络、云计算、物联网等新一代信息技术构成的IT架构“第三平台”是信息社会进入新阶段的标志,对整个经济的转型有引领和带动作用。电信运营商尤其是具有浓厚国资背景的中国电信运营商是承载“第三平台”的主体。

运营商天然拥有大数据,如大量用户的相关数据,相对互联网企业而言准确度更高,也更加完整。除此之外,运营商的基础设施(如交换机、基站、数据通信设备、传输设备等)的运行维护数据、告警信息、配置信息、性能信息是比传统大数据范围更广、涉及领域更多、运营商独有的、比大数据更大量的数据。

然而传统运营商对大数据的运行主要表现在:对内,利用大数据进行自我改造,应用领域集中在内部决策、精确营销和客户服务领域;对外,形成对外开放、可商业化的核心能力,将其封装为服务和产品,实现商业模式的创新,助力 “互联网+”新经济、新常态的发展,如协助政府社会管理,根据场景、区域等维度,把相关数据做出画像,协助做好政府社会管理。

对于某个可能引起用户感知不佳甚至引发投诉的事件,电信运营商客户服务领域有一组有趣的统计数据:26个用户因为服务质量不佳有可能投诉但选择保持沉默,其中只有1个用户因服务不好选择投诉。该事件同时会被传播,其中,该事件被告知其他528人,最终有1 341人传播了该事件。

因此,解决客户感知不佳的问题迫在眉睫,无论用户是否投诉,先于客户发现问题、解决问题,是电信运营商亟待解决的难题。中国移动通信集团公司(以下简称中国移动)是全球最大的电信运营商,始终秉承“网络质量是企业的生命线”的理念。用户感知与网络性能指标在传统的电信运营商电路交换业务网络中呈正相关特性。然而,对于非话音的移动互联网业务,即使网络指标是完好的,仍然存在用户感知不佳的现象。

运营商被动通过投诉渠道获取用户的感知信息。本文研究用户感知和网络性能指标的关系,基于大数据技术,提出基于样本空间置换的五元五阶(five element five phase,FEFP)方法,实施主动运维,先于用户投诉发现并解决感知不佳问题。相比传统的运维模式,主动运维模式以网络性能管理为基础,主动进行网络分析,快速发现网络中各节点之间的性能失衡、趋势异常等隐性问题,运维人员根据分析结果主动出击,在故障发生前,有的放矢地进行精确优化,降低成本,提升网络质量及客户满意度。

2 基于大数据的主动运维

2.1 电信业大数据的特点与构成

中国电信运营商已经将数据资源上升到数据资产。传统电信业的大数据大约97%来自于运维支撑系统(operation support system,OSS)域(以下简称O域),3%来自于业务支撑系统(business support system,BSS)域(以下简称B域)。其中,O域数据具有量大、精细、实时和贴近网络行为等特点,B域数据具有量小、汇总、离线、贴近用户行为等特点。

传统O域数据主要来自于网管系统数据,特点是基于网络设备的网元级(设备级)的操作、管理、测量报告、运行状态结果等数据。通常采样周期为15 min以上,时延0.5 h以上。然而,不同于传统的“话音业务网络好,客户感知就好”,移动互联网网络运行实践表明,即使O域呈现出的各种数据是正常的,仍然存在大量用户感知不佳的现象,即用户感知的精确刻画和描述无法通过传统的O域数据进行表征。用户的感知只能以用户遇到问题后的投诉间接反映,这就是运营商的传统运维方式。

因此传统以网元为中心的被动式的网络运维体系已经不适应“体验为王”的移动互联网时代的特征要求。当前客户感知不仅仅取决于网络,更涉及终端、业务使用全流程的各个环节。以某省公司调查为例,影响客户感知的各种因素中,网络质量问题只占19%,剩下的81%的问题分布在终端、业务和用户侧。而传统以故障告警为重点的网络运维体系,已无法做到端到端全覆盖、全过程、实时的质量监控分析。网络主动运维“难”。

传统运维模式是根据客户投诉或网络显性故障,被动地解决问题,无法做到对客户感知的主动预判,所以永远都是慢客户“一拍”,难以从根本上保障和提升客户感知。因此,网络必须加快向“客户体验+主动运维”的模式转型。主动运维必须通过大数据实现,大数据分析中尽量汇集多种来源的数据是关键,大数据的数据源如果仅停留在传统的运维数据层面,数据会有一定的局限性和片面性,只有集成多个方面的原始数据,才能反映事物的全貌。

为了实现用户感知的主动保障,电信运营商已经开始如图1右侧所示的移动通信网络信令数据采集和互联网业务的深度分组解析(deep packet inspection, DPI)项目建设。但是,如图1所示,新的信令采集和DPI数据的体量远大于传统数据,非格式化的数据特点也更加显现。这些特点又推动数据分析向大数据思维和技术变革。

基于大数据的移动互联网主动运维理论和实践进展

图1 电信业大数据的构成示意

2.2 基于五元五阶模型实现端到端客户感知到移动互联网接续过程的映射

据某知名咨询机构对中国移动用户4G手机上网的调查报告显示,数据业务的用户感知是中国移动当前的薄弱环节。感知不佳主要体现在:没信号、有信号但上不了网、网速慢以及掉线频繁,如图2所示。

基于大数据的移动互联网主动运维理论和实践进展

图2 用户感知调查报告

LTE网络质量问题定位需要以用户业务感知为原则,即必须通过技术手段将用户感知技术的指标进行表征,这样就可以透过网络视角汇聚用户视角。图3为在4G的LTE网络中用户感知与网络对应的技术过程的关系。

基于大数据的移动互联网主动运维理论和实践进展

图3 用户感知与网络接续过程的对应关系

在图3感知和技术流程对应的基础上,图4则给出了基于客户感知的端到端质量保障分析流程。LTE数据业务的用户感知需要建立一套规范的评估提升方法,实现端到端的性能分析,通过端到端质量保障提升客户感知。

基于大数据的移动互联网主动运维理论和实践进展

图4 基于客户感知的端到端保障体系流程

因此,如图3所示的网络视角,与LTE网络客户感知直接相关的顺序的时间流程包括5个步骤(阶段),即附着(attach)、管道建立(EPS)、域名系统(DNS查询)、传输控制协议(transmission control protool, TCP)链接建立以及业务使用。

用户使用业务涉及的从用户侧到网络侧端到端的所有网元和环节都影响用户感知,将这些环节在空间上划分为5个层面的元素(element),即用户、终端、小区、网络和业务。通过空间的5个维度(元素)和时间上的5个步骤可以在空间和时间维度上定位出用户某次上网感知不佳的问题所在,即用户某次上网感知不佳,在空间上是哪个具体“元”(网元)导致,在时间上是发生在五阶的具体哪个“阶”。这就是五元五阶模型。

五元是相互匹配的元素,环节失配将导致业务不流畅或业务能力未充分挖掘。五阶是顺序的流水过程,任一阶段出现问题将导致断流(业务中断),KQI(key quality index,关键质量指标)产生自每个环节。五元五阶模型并非5×5 的简单叠加,而是基于大数据的多维度数据的上卷与下钻,实现面向用户感知的全方位的知识挖掘。五元五阶模型一方面体现端到端能力保障和能力运营的最小变量级,另一方面足够完备地保证各项输出。

基于FEFP模型的大数据技术使得从海量信息中快速提取有价值信息成为可能,获取“5A”,即任何小区(any cell)、任何用户(any user)、持任何终端(any terminal)、使用任何应用(any service)获得 的 量化 的 任 何 效 果 和品 质(a n y quantized quality)(如时延、速率)是获取客户感知的关键。要实现基于五元五阶模型的“5A”目标,必须要有相应的LTE信令采集数据支撑。

2.3 LTE信令采集DPI

传统的网管数据更多记录的是网元设备运行的结果和状态测量数据,它侧重于设备的运行结果。但是大量事实表明,当用户出现明显的感知异常时,网元设备运行结果表现为正常。为了实施保障用户感知的主动运维,需要建设信令采集系统,图5是LTE网络信令采集系统的结构示意,覆盖用户面与控制面。表1给出了每个采集接口对应可获取的数据。

基于大数据的移动互联网主动运维理论和实践进展

图5 LTE信令采集结构示意

表1 LTE信令采集接口及对应的信息描述

基于大数据的移动互联网主动运维理论和实践进展

通过信令数据的采集和大数据分析,有可能实现用户“5A”信息的获取,继而做到用户感知的端到端体验保障,实现先于用户投诉就主动发现问题、解决问题的目标。这就是主动运维及主动运维的意义和价值。

3 基于样本空间置换的五元五阶模型的闭环模型和定界原理

基于LTE信令数据的采集和五元五阶模型,利用大数据技术可实现以下目标:

  1. 对采集的数据进行整理,对海量信息进行过滤,多维度提取用户行为信息;
  2. 通过网络行为(便于理解的信令)启发式呈现用户行为;
  3. 通 过 关 键 绩 效 指 标 ( k e y performance indicator,KPI)、KQI、体验质量(quality of experience,QoE)多个维度网络指标量化映射网络行为;
  4. 多个场景联合分析,挖掘用户感知;
  5. 建立特征,关联端到端性能与模型,实现知识固化,通过固化的特征,指导用户行为挖掘,实现闭环。

图6为五元五阶模型示意。其中,横、纵坐标分别是五元五阶的五元和五阶变量,通 过 五元五阶共10 个维度(在实际应用中维度通常会超过10个,新增的维度(如传输设备、数据通信设备)是指通过 “五元”关联而新增的变量)的变量构建出用于主动运维的网络行为分析、用户行为分析、端到端性能分析、用户感知分析以及网络指标分析等。

基于这些应用体系或应用系统的分析结果,实现先于用户投诉就主动发现小至用户级、大到全网的感知问题,感知到问题对应五元五阶中“元”或者“阶”的具体位置,继而针对性地解决问题。这就是主动运维的过程。

基于大数据的移动互联网主动运维理论和实践进展

图6 五元五阶模型

3.1 样本空间置换算法

通过五元五阶模型,利用大数据可以构建出如图7所示的多维数据仓库(cube)。这样可生成一维和多维的“5A” 用户感知信息数据库,其中,用户感知多维数据仓库是在一维基础上的不同样本数或所在不同空间维度的多元统计分析值。在该多维数据仓库的基础上,利用样本空间置换算法进行用户感知问题自动定界以及主动运维工作。

样本存在于空间中,是一定空间中的样本。一定样本组成的小空间构成了一个样本,这个小空间形成的样本又是更大空间的一个样本。通过样本和空间的不断置换迭代进行相应感知指标的对比,可以快速发现整个LTE网络用户、手机、小区、网络以及业务平台可能潜在的故障或相应网元的性能劣化。

基于大数据的移动互联网主动运维理论和实践进展

图7 基于五元五阶模型的多维数据仓库

样本空间置换算法实例如下。

案 例:用户感知多维数据仓库“发现”A用户使用的某浏览业务网页S无法呈现,而全网的其他业务基本正常。其中,A用户使用B终端,事件发生时段为T(一般采用小时粒度)。

使用样本空间置换算法可以快速地进行潜在“故障/隐患”判断。判断规则如下。

该时间段T内,全网除A之外的所有用户使用浏览业务网页S是否正常?如果全网所有用户使用该业务均异常,那么业务网页S发生故障。整个过程结束。否则,进行以下判断。

全网使用终端B的用户在该时段内浏览业务网页S是否正常?如果正常,转下一步。如果异常,全网使用终端B的用户使用除业务网页S外的业务是否正常?如果正常,结论是该款终端与该业务的匹配有问题。整个过程结束。

A用户所在地点的小区其他用户浏览业务网页S是否正常?A用户在T时段内在该小区浏览业务网页S外的其他业务是否正常?A用户在其他小区内使用其他业务是否正常?

通过上述简单的比较过程,可以快速定界出此次异常事件的主因:业务S有问题,或者用户A的个性问题,或者用户使用的终端B有问题,或者用户使用终端B的个性问题,或者用户所在小区有问题,或者用户所在小区与业务S的匹配问题,或者用户所在小区对应的小区设备厂商的所有该版本设备有问题,或者用户所在小区对应的核心网元的某个模块甚至是核心网元有问题。

这就是基于样本空间置换算法的五元五阶模型。在时间维度上将用户的体验分解成不同的阶段,通过空间上的5个维度的不断相互置换,先于用户投诉快速发现用户感知不佳的原因,继而解决故障隐患。

3.2 样本维度分类

假设用户样本的评估为y=f({a, b, c, d, e}),其中,a为用户维度,b为终端维度, c为小区维度,d为网络维度,e为业务维度,f函数为基于上述五元维度的评估。

对于用户维度,可以有以下几类空间:单用户A0,按运行速度分类用户A1,…,全量用户An。

终端维度:该终端B0,同款终端B1,同厂商终端B2,…,全量终端Bm。

小区维度:该小区C0,同暂时接入控制(temporal access control, TAC)C1,同区域C2,同特征区域群C3,同地市C4,…,全省Cp。

网络维度:所在 核心网 D 0,同移动管理实体(mobile management entity, MME) pool D1,…,全量Dq。

业务维度:该样本当前业务E0,同内容提供商(service provider, SP)E1,按数据分组大小分业务E2,同协议E3,…,全业务Er。

上述的五元组成的样本集合形成了相应的空间集合,如下:

(A0,A1,A2,…,An)

(B0,B1,B2,…,Bm)

(C0,C1,C2,…,Cp)

(D0,D1,D2,…,Dq)

(E0,E1,E2,…,Er)

3.3 样本空间置换定界规则

(1)定义一套规则

单用户A0从属于按运行速率分类的某一类用户A1,而A1又从属于全量用户An,那么如果存在 Ai从属于Aj,且不 存在 Ak使得Ai从属于Ak,且 Ak从属于Aj,则认为father(Ai)=Aj,son(Aj)=Ai。

(2)定界的实现原理

目标是找到一个组合(Aw,Bv,Cx,Dy, Ez),其中,Aw是(A0,A1,A2,…,An)的元素,且 a从属于Aw,其他 维度相同,使得f({Aw,Bv,Cx,Dy,Ez})达到异常阈值,而以下5个结果正常或偏向正常:

f({father(Aw),Bv,Cx,Dy,Ez})

f({Aw,father(Bv),Cx,Dy,Ez})

f({Aw,Bv,father(Cx),Dy,Ez})

f({Aw,Bv,Cx,father(Dy),Ez})

f({Aw,Bv,Cx,Dy,father(Ez)})

举例说明,假设确认所有在TAC005下通过核心网络SAEGW01的用户业务指标异常(Cx为TAC005,Dy为SAEGW01),但是所有在TAC005从属的大区域下通过核心网络SAEGW01的用户指标基本正常(Cx为father(TAC005)),且所有在TAC005通过其他所有核心网络的用户业务(Dy为father(SAEGW01)也正常,那问题就明确定界了,问题出现在该TAC005与SAEGW01之间。

(3)定界实现过程

对于异常样本(a,b,c,d,e):确定空间集合各个点的值,如A0为用户王某某,A1为高速用户,An为全量用户。

明确5个维度内各个子空间的从属关系:father(A0)=A1,…。分5个维度,从最高空间An,Bm,Cp,Dq,Er向下遍历(可以是广度遍历,也可以是深度遍历),直到找到目标Aw,Bv,Cx,Dy,Ez符合前面所述定界规则。

(4)定界过程的优化

由于维度与空间太多,必然出现维度过多的“维灾难”。这种灾难在数据量极大的大数据中必须有效降低。解决“维灾难”的有效措施是无需遍历所有可能的维度。考虑到五元(用户/终端/小区/网络/业务)中5个维度并非完全无关(非正交),有些组合可以排除,或者将可能性较低的5个维度的组合的遍历顺序放在后面,通过这种方式提高分析效率。当然,在实际工作中,通常通过经验丰富的一线运维人员进行相关的规则优化整理,目的是实现精简流程,快速实施定界。

一般而言,业务异常(业务维度)不会出现在小区级别(也就是该小区的同业务异常,其他小区的业务都正常),这种组合就可以排除或者放在最后。

4 主动运维实践案例

4.1 通过主动运维提升面向网络的主动管理能力案例

在传统网元监控基础上,通过集中性能管理平台实现了网络问题的自动预警,在网络结构组合变化中,主动发现网元间的协调匹配问题以及网元潜在的恶化倾向,并自动触发告警,问题定位定界准确率超过90%,目前主动运维成为网络管理新常态。

如图8所示,2015 年7月,集中性能管理平台预警厦门局点出现下载速率低于全省均值20%的情况,传统网管系统无法发现,客户初期也没有感知,但通过主动运维很快就发现并解决了问题。先利用五元五阶模型定界出该问题属于网络侧问题,并排除核心网问题,进一步排查确定不是厦门局点互联网路由的问题,最终定位出是厦门局点与福州局点路由器参数配合问题,并将参数由“数据分组转发”改为“数据流转发”,优化后全省LTE下载速率提升25%左右,部分数据分组转发速率提升40%。

基于大数据的移动互联网主动运维理论和实践进展

图8 主动运维提升全网下载速率实例

4.2 通过主动运维提升面向客户的实时保障能力案例

传统运维模式只能统计15 min颗粒度的网元级指标,且时延30 min以上,主动运维实践的系统不但可以统计1 min颗粒度的客户级感知指标,还能全量记录所有感知不佳的用户清单及对应问题,且时延不超过3 min,真正具备了实时保障客户感知的能力。如图9所示,该系统有效保障了2016年“双十一”电商购物客户感知。

基于大数据的移动互联网主动运维理论和实践进展

图9 主动运维提升面向客户的实时保障能力实例

4.3 通过主动运维发现业务平台问题案例

福州某小区的“欧朋浏览器”网站的HTTP业务成功率超过阈值触发告警。进入自动定界流程,通过比较发现该SP全网的指标与同类业务其他SP全网的指标存在明显劣化现象,定位为SP问题。采用基于样本空间置换算法分析方法,对应的流程如图10所示。

基于这类流程的主动运维模式发现并解决了大量端到端感知隐患,包括多个无线厂商设备缺陷、传输分组传送网(packet transport network,PTN)接入网问题、省干传输问题、无线参数配置问题、基站参数设置问题、终端适配问题、内容源问题等。

基于大数据的移动互联网主动运维理论和实践进展

图10 主动运维发现业务平台问题样本空间置换过程实例

4.4 通过主动运维发现苹果终端TCP成功率偏低问题案例

2015年8月14日,主动运维平台五阶指标—— TCP核心网成功率突然出现劣化,由平时的98%下降到87%,网管系统未有任何告警信息。

问题排查:通过对五元维度的TCP核心网成功率进行对比分析,排除用户、终端、小区、网络故障,精准定位是由于部分业务侧问题导致。专业室进一步排查,发现苹果公司推送通知服务(apple push notification service,APNS)时延较长,该服务用于为有消息提醒服务的应用提供推送接口,可能苹果公司在服务器侧有进行相关业务性能的限制,对于超出能力的请求直接不响应,导致握手失败。

5 结束语

依托大数据技术,基于样本空间置换算法的五元五阶模型,创新提出并实践了主动运维的新运维模式,以用户使用业务的端到端全流程体验视角,快速发现网络中各节点之间的性能失衡、趋势异常等隐性问题,运维人员根据分析结果主动出击,在故障发生前,有的放矢地进行精确优化,降低成本,提升移动互联网的网络质量及客户满意度。这种基于大数据的模式彻底改变了运营商的思维方式和生产方式,这些实践传统的非大数据做法是无法实现的,印证了大数据能产生大价值的思想。

大数据要产生价值,就要追求大数据生态系统的构建。数据取之于生产,源于生产过程的各个环节。大数据要服务于生产,大数据的结果要融入生产的流程,才能产生大作用。大数据的应用使得使用主体真正拥有数据资产能力。大数据理论体系注定是非实时的,然而实时的大数据应用是特殊行业的刚性需求,必须采取创新的思维和技术。运营商的网络运维工作始终追求高效率和低成本。众所周知,基于大数据相关技术,传统的许多无法实现的 “愿望”在大数据的支撑下可以很容易实现。

然而,由于大数据是海量的,原先认为可以做到的事情可能因为大数据的大量数据变得很难实现。大数据技术在实践过程中,需要辩证地在存储、计算、效率、效果等多种维度中折中地进行取舍,如“全量的用户、抽样的信息;抽样的用户、全量的信息”“特定事件、抽样的时段信息”“非实时的汇聚的信息,实时的原始(未汇聚)的记录”“精确地计算,大胆地近似”。

最后说明一点,本文涉及的利用大数据实施运营商主动运维技术由于涉及具有运营商特点的技术、流程和专业术语,限于篇幅无法解释说明清楚。

36大数据(www.36dsj.com)成立于2013年5月,是中国访问量最大的大数据网站。36大数据(微信号:dashuju36)以独立第三方的角度,为大数据产业生态图谱上的需求商 、应用商、服务商、技术解决商等相关公司及从业人员提供全球资讯、商机、案例、技术教程、项目对接、创业投资及专访报道等服务。

End.

转载请注明来自36大数据(36dsj.com): 36大数据 » 基于大数据的移动互联网主动运维理论和实践进展

随意打赏

大数据与互联网金融中国移动互联网数据移动互联网用户数据移动互联网数据报告移动互联网数据分析互联网大数据征信互联网大数据服务移动互联网大数据互联网大数据时代互联网大数据分析
提交建议
微信扫一扫,分享给好友吧。