资源描述
Product Type Technical Proposal
TDD LTE 主要KPI优化指导书
ZTE Confidential Proprietary
© 2014 ZTE Corporation. All rights reserved.
1(3)
适用对象:TD LTE网优工程师
摘要
章节
描述
1 概述
概述
2 主要KPI指标介绍
主要KPI指标介绍
3 KPI指标监控流程
KPI指标监控流程
4 KPI性能分析方法
KPI性能分析方法
5 KPI优化分析专题
KPI优化分析专题
6 结束语
结束语
7 附录
附录
目录
1 概述 1
2 主要KPI指标介绍 2
2.1 指标的分类 2
2.1.1 按照网元对象分 2
2.1.2 按照统计时间粒度分 2
2.1.3 按照指标相关性分 2
2.2 接入类指标 3
2.2.1 RRC连接建立成功率 3
2.2.2 ERAB建立成功率 4
2.3 保持性指标 5
2.3.1 无线掉线率 5
2.3.2 ERAB掉线率(小区级) 6
2.4 移动性指标 7
2.4.1 切换成功率 7
3 KPI指标监控流程 8
3.1 KPI监控流程介绍 8
3.2 日常KPI监控流程 9
3.3 参数修改过程中KPI监控流程 10
3.4 ENODEB版本升级过程中的KPI监控 11
3.5 割接过程中的KPI监控 12
4 KPI性能分析方法 12
4.1 KPI性能分析方法 12
4.1.1 TOP N最坏小区分析法 12
4.2 KPI性能分析基本技能 14
4.2.1 KPI监控常用工具 15
4.2.2 KPI分析用到的工具 15
4.3 KPI优化分析过程 16
5 KPI优化分析专题 19
5.1 RRC建立成功率优化专题 19
5.1.1 RRC建立成功率的定义 19
5.1.2 RRC建立失败常见原因 20
5.1.3 优化措施 21
5.2 切换成功率优化专题 23
5.2.1 切换成功率的定义 23
5.2.2 切换失败常见原因 24
5.2.3 优化措施 26
5.3 KPI常见原因处理手段 27
6 结束语 27
7 附录 28
7.1 缩略语 28
7.2 参考资料 30
图目录
图 1-1 KPI联合问题定位 1
图 3-1 日常KPI监控流程图 9
图 3-2 参数修改后KPI监控流程图 10
图 3-3 ENodeB版本升级KPI监控流程图 11
图 4-1 KPI优化分析流程图 18
图 5-1 RRC接入流程 19
图 5-2 TA接入统计分布 21
图 5-3 优化后RRC建立成功率 22
图 5-4 优化后无线掉线率 22
图 5-5 S1切换流程 23
图 5-6 EUTRAN邻接关系 24
图 5-7 同频同PCI配置 25
图 5-8 邻区错配 25
图 5-9 优化后切换成功率 26
表目录
表 21 RRC连接建立成功率与质量等级 4
表 22 小区ERAB建立成功率与质量等级 5
表 23 业务掉话率与质量等级 6
表 24 分组域业务掉线率与质量等级 7
表 25 业务切换成功率与质量等级 8
表 41 TOP N最坏小区列表 13
表 51 掉话常见原因 20
1 概述
无线网络KPI是体现网络质量的直接体现,KPI监控也是我们发现问题的重要手段;KPI监控与优化主要集中在运维期间,网络问题不能靠用户投诉来解决,对一些异常的事件必须第一时间发现并提出相应解决方案,这样才能保证为用户提供良好的话音与数据业务。
在网络建设初期主要是工程优化,由于用户少,工程质量等问题,在这个阶段的KPI优化没有太大的意义,关注点主要在RF调整上面,只要特别关注一下RRC 、ERAB 接入成功率、ERAB掉话率、RSSI指标即可;网络进入运维时期后,才是真正的KPI优化,也即是我们通常说的参数优化,通过各种参数的联合调整来降低某项指标,达到客户的要求。
KPI数据来源于操作维护中心(OMC)的网管系统(NetNumen U31),对关键性能指标KPI数据进行分析,可得到各种指标的一个当前状态,这些指标的当前状态是评估网络性能的重要参考。当前我们关注的指标主要有网络保持性能、接入性能、移动性能、系统容量等;根据上述指标的当前值,判断并定位问题发生的区域、问题发生的范围、问题的严重程度;比如:某站点拥塞、某站点掉话率为10%、最坏小区比例、超忙小区比例、接入成功率、呼叫时延、切换成功率、重建立成功率等。
关于KPI的分类,我们按照统计的来源将KPI分为业务KPI与网络KPI;业务KPI是指通过外场路测测得的KP数据,;网络KPI是指通过后台综合网管统计得到KPI数据;本文主要讨论的是网络KPI,通过网络KPI来发现网络问题。一般解决问题是通过后台KPI数据、告警数据、用户投诉、DT测试联合起来进行分析定位,最终给出解决方案。
图 1-1 KPI联合问题定位
2 主要KPI指标介绍
KPI指标是通过ENB计数器的实现,通过后台网管定制统计出来的,能真实反映网络某项性能的情况,及时发现问题,使网络的风险降低。按照时间统计粒度分为:15分钟粒度、60分钟粒度、24小时粒度、周粒度、月粒度;按照统计对象分为小区级、ENB级。
2.1 指标的分类
2.1.1 按照网元对象分
l 小区级指标
l 小区对级指标
l 天线PORT级指标
l ENodeB级指标
2.1.2 按照统计时间粒度分
l 15分钟粒度
l 30分钟粒度
l 1小时粒度
l 24小时粒度
l 7天粒度
l 月粒度
2.1.3 按照指标相关性分
l 保持性指标
主要是包括ERAB掉话率,RRC掉话率、切换时掉话;
l 接入类指标
包括RRC连接建立成功率、ERAB指派成功率、无线接通率等等。
l 移动性指标
主要包括频内切换成功率、频间切换成功率、异系统硬切换成功率(LTE->2G、3G切换成功率)等等。
l 资源类指标
主要包括下行控制信道受限、CPU受限、业务信道受限、能承载的用户数、传输受限等等。
l 系统容量类指标
主要包括小区级、PS吞吐量等等。
由于篇幅的限制,这里就每个类别里面的每个指标不一一叙述,可以参考随机文档《性能指标参考.pdf》,每个KPI指标实现的公式、相应计数器的定义、每个指标的分类、指标的取值范围等都可以在这里找到;对于单个的计数器定义与说明可以参考随机文档《性能计数器参考.pdf》,该文档主要阐述各计数器的定义及触发点;本章主要对一些常用的重点指标进行举例说明,同时也以表格的形式对每个指标进行了质量等级的划分,当指标质量等级为差时,就需要对该指标进行优化了,其余的指标用类似的方法可以自己来深入学习。
本文以中移4G一期为背景,介绍当前外场较关心的接入,掉线,切换三大指标的定义和优化措施。所有指标定义以《TD-LTE中移集团30个网管指标V1.0-502版本》为基础。每个Counter取值采样点和Counter所代表的原因在《性能计数器参考.pdf》都有清晰的描述,在此不再一一介绍。
2.2 接入类指标
2.2.1 RRC连接建立成功率
本指标反映eNodeB或者小区的UE接纳能力,RRC连接建立成功意味着UE与网络建立了信令连接。RRC连接建立,包括(如位置更新、系统间小区重选、注册等)的RRC连接建立。
公式中分子和分母涉及的计数器都是RRC Connection Request消息中信元Establishment cause中的所有原因。分子是RRC连接建立成功次数,分母是RRC连接建立尝试次数。对外公式都采用成功+失败来表示请求,实际上也要参考或核对请求计数器。
2.2.1.1 公式定义:
RRC连接建立成功率=RRC连接建立成功次数/ RRC连接建立请求次数*100%
2.2.1.2 RRC建立连接成功率
2.2.1.3 KPI指标取值与质量等级
表 21 RRC连接建立成功率与质量等级
序号
统计对象
统计粒度
取值范围
质量等级
1
CLUSTER/Cell级
24小时
小于80%
差
2
CLUSTER/Cell级
24小时
80%-98%
良
3
CLUSTER/Cell级
24小时
大于98%
优
2.2.2 ERAB建立成功率
本指标用于了解该小区内UE业务建立成功的概率,部分反映了该小区范围内用户发起的业务的感受度。比较准确的做法 :分子是ERAB建立成功次数,分母是ERAB建立尝试次数。E-RAB建立成功则是成功为用户分配了用户平面的连接。
2.2.2.1 公式定义:
ERAB建立成功率=E-RAB建立成功数/E-RAB建立请求数*100%
2.2.2.2 E-RAB 建立成功率
2.2.2.3 KPI指标取值与质量等级
表 22 小区ERAB建立成功率与质量等级
序号
统计对象
统计粒度
取值范围
质量等级
1
CLUSTER/Cell级
24小时
小于80%
差
2
CLUSTER/Cell级
24小时
80%-98%
良
3
CLUSTER/Cell级
24小时
大于98%
优
2.3 保持性指标
2.3.1 无线掉线率
无线掉线率反映了系统的业务通讯保持能力,也反映了系统的稳定性和可靠性。UE掉话是指由于异常原因被UE主动发起RRC释放的情况;公式统计的是异常原因的掉话率,现在归为正常释放的原因值包括:用户不活动(inactive)、操作维护干预、过载控制导致的释放、CCO、重定向,其他情况归为异常。
2.3.1.1 公式定义:
无线掉线率=(eNB请求释放上下文数-正常的eNB请求释放上下文数)/初始上下文建立成功次数*100%
2.3.1.2 无线掉线率
2.3.1.3 KPI指标取值与质量等级
表 23 业务掉话率与质量等级
序号
统计对象
统计粒度
取值范围
质量等级
1
CLUSTER/Cell级
24小时
大于1.5%
差
2
CLUSTER/Cell级
24小时
1%-1.5%
良
3
CLUSTER/Cell级
24小时
0.4%-1%
优
2.3.2 ERAB掉线率(小区级)
无线掉线率反映了系统的业务通讯保持能力,也反映了系统的稳定性和可靠性。本指标用于了解该小区内UE进行掉话的概率,部分反映了该小区范围内用户进行业务的感受度。掉话是指由于异常原因被ENB主动发起ERAB释放的情况;公式统计的是异常原因的掉话率,现在归为正常释放的原因值包括:用户不活动、操作维护干预、过载控制导致的释放、重定向、CCO等,其他情况归为异常。
2.3.2.1 公式定义
ERAB掉线率= (切出失败的E-RAB数 +eNB请求释放的E-RAB个数 -正常的eNB请求释放的E-RAB数)/( 遗留E-RAB个数 +E-RAB建立成功数 +切换入E-RAB数 )*100%
2.3.2.2 E-RAB掉线率
2.3.2.3 KPI指标取值与质量等级
表 24 分组域业务掉线率与质量等级
序号
统计对象
统计粒度
取值范围
质量等级
1
CLUSTER/Cell级
24小时
大于4.0%
差
2
CLUSTER/Cell级
24小时
2.0%-4.0%
良
3
CLUSTER/Cell级
24小时
小于2.0%
优
2.4 移动性指标
2.4.1 切换成功率
切换成功率是系统移动性管理性能的重要指标,切换过程不区分同频/异频。
2.4.1.1 公式定义:
切换成功率=(eNB间S1切换出成功次数+ eNB间X2切换出成功次数+ eNB内切换出成功次数)/(eNB间S1切换出请求次数+ eNB间X2切换出请求次数+ eNB内切换出请求次数)*100%
2.4.1.2 切换成功率
2.4.1.3 KPI指标取值与质量等级
表 25 业务切换成功率与质量等级
序号
统计对象
统计粒度
取值范围
质量等级
1
CLUSTER/Cell级
24小时
小于90%
差
2
CLUSTER/Cell级
24小时
90%-98%
良
3
CLUSTER/Cell级
24小时
大于98%
优
3 KPI指标监控流程
KPI监控的目的:第一时间发现影响业务及用户感受的网络异常事件并解决之;如:某个站点掉话率超过了50%,我们就要第一时间发现它,并找出解决问题的办法。鉴于KPI问题发现的及时性及重要性,我们须有一套合理的KPI监控机制及解决问题的流程。同时,需要有合适的监控工具、分析工具来配合工作。及时发现由于传输问题、资源拥塞、小区退服、干扰严重、NodeB硬件故障、ENODEB参数配置错误等引起的业务掉话;
我们对KPI监控大概分为四类:
1. 日常的KPI监控;
2. 参数修改过程中的KPI监控;
3. ENODEB、NodeB版本升级过程中的参数修改;
4. 用户割接过程中的KPI监控。
KPI日常监控是一项长期的工作,需要每天监控,形成例行的工作,并通过采用KPI日报方式进行汇报,日报的内容主要包括CS最坏小区、PS最坏小区、RRC连接成功率低的最坏小区、资源受限最坏小区等等;做到及时预警和解决问题。
3.1 KPI监控流程介绍
KPI监控主要有四类监控内容,分别为:日常KPI监控、参数修改过程中的KPI监控、ENodeB版本升级过程中KPI监控、用户割接过程的KPI监控。各项监控又有不同的监控内容,以及不同的输出形式;如日常KPI监控用日报的形式来体现,其他用KPI对比报告形式来体现;各类监控形式又根据处理的问题不同,提取的KPI指标采用的统计时间粒度也不同,粒度的选择按照问题定位的需要来决定。
KPI日常监控是一个长期工作,最终以日报的形式输出,并且将各类最坏小区汇总后,以邮件的形式发给相关人员进行处理。
3.2 日常KPI监控流程
图 3-1 日常KPI监控流程图
EMS导出全网
粒度1天
cell级数据
用KPI工具筛选最坏小区
输出Excel形式KPI日报
参数问题
交规划人员
处理
最坏小区
分类
问题处理小组对各类最坏小区分类、汇总、定位
交网优人员
处理
交研发或用服处理
用固定格式邮件发给相关人员
覆盖问题
设备/版本问题
3.3 参数修改过程中KPI监控流程
图 3-2 参数修改后KPI监控流程图
3.4 ENodeB版本升级过程中的KPI监控
图 3-3 ENodeB版本升级KPI监控流程图
继续监控
(15分钟粒度)
执行工单
升级到新的版本
网络KPI监控
(15分钟粒度)
簇级KPI是否正常
是否回退
当前版本版本
邮件和电话通知执行负责人
正式word报告输出
(指标修改前后小时粒度KPI对比一小时输出一次)
是
否
否
结束
定位最坏小区,是否与版本升级有关系
是
3.5 割接过程中的KPI监控
在整网割接替换其他厂家的网络中,比如香港的CSL网络,该网络是我们替换诺基亚的设备;当我们的网络优化好后,将现网的用户要逐步割接到我们网络,在每次割接过程中,用户会不断注册到我们的网络,在网络负荷增加的情况下,要密切关注KPI指标的变化;该监控流程、监控内容、监控方法、以及报告输出与上一节ENodeB版本升级过程中的监控是一样的,具体内容参考ENodeB版本升级时KPI监控一节内容。
4 KPI性能分析方法
4.1 KPI性能分析方法
不同的网络问题有不同的性能分析方法,在掌握现网运行情况和存在的问题后,选择合适的一种或多种分析方法,常用的性能分析方法有:
1. TOP N最坏小区法:按照所关注的话务统计指标(如掉话率、连接成功率、切换失败率等),根据需要取忙时平均值或全天平均值,找出最差的N个小区,作为故障分析和优化的重点,也可以据此排定优化工作的优先顺序。
2. 时间趋势图法:指标统计的趋势图是话务分析的常用方法,分析工程师可以按小时、天或周作出全网、Cluster或者单个小区的单个或多个指标的变化趋势图,从中发现话务统计指标的变化规律。
3. 区域定位法:网络性能指标的变化往往发生在部分区域,由于话务量增长、话务模型变化、无线环境改变、少数基站故障或上下行干扰造成了这些区域的指标变差,从而影响到全网的性能指标,可以对比变化前后的网络性能指标,在电子地图上标出网络性能变化最大的基站或扇区,围绕问题区域重点分析。
4. 对比法:一项话务统计指标往往受多方面因素的影响,某些方面改变,其他方面可能没有变化,可以适当选择比较对象,证实问题的存在,并分析问题产生的原因。看指标时,不能只关注指标的绝对数值是高是低,关心的应该是指标的相对高低情况。
4.1.1 TOP N最坏小区分析法
在KPI优化分析的整个过程中,TOP N最坏小区分析法是最有效的一个手段,贯穿与整个优化阶段;主要是通过对TOP N小区的关注,可以解决网络的主要问题;每天网络中都有可能发生一些异常的掉话事件,这些事件可能代表一类问题,解决了TOP N最坏小区的问题就可以解决这一类的问题,所以我们从TOP N小区着手是最好最直接的解决问题的办法之一。
TOP最坏小区分析法适用与所有的指标优化分析,主要是根据一定的门限值选出TOP N最坏小区,这个门限的定义根据指标的不同而不同;N是最坏小区的个数,当最坏小区比较多且没有精力去关注的时候,可以将N的个数适当的减少,只关注最差的小区。TOP N小区分析方法主要有下面几个步骤:
第一步:按照关注指标的条件筛选出TOP N小区;
第二步:对TOP N小区进行健康性检查,检查最坏小区的 传输、单板问题,或者是不是由于某突发的外界事件造成,如恶劣天气、集会、节假日的高话务造成;
第三步:检查小区无线参数配置、邻区、小区半径,与正常小区进行比较;
第四步:导出与所关注指标关联最紧密的指标进行分析,从侧面来发现问题所在;
例:某网络出现全网的切换成功率变差的情况,现在对切换成功率采用TOP N分析方法分析问题;
详细操作可以参考如下案例:
第一步:按照关注指标的条件筛选出TOP N小区;
我们用 KPI分析功能筛选出TOP N小区(也可以用其他的工具选出,导出到EXCEL 排序),这里我们取切换失败次数高的个最坏小区;
表 41 TOP N最坏小区列表
开始时间
结束时间
ME ID名称
YY-切换成功率分子
YY-切换成功率分母
切换失败次数
2013-12-30 00:00:00
2013-12-31 00:00:00
0040_广州广州大桥南FE(40)
12264
24458
12194
2013-12-28 00:00:00
2013-12-29 00:00:00
0040_广州广州大桥南FE(40)
7403
16749
9346
2013-12-29 00:00:00
2013-12-30 00:00:00
0040_广州广州大桥南FE(40)
8967
17625
8658
2013-12-30 00:00:00
2013-12-31 00:00:00
1484_广州周门丽安大厦FEprc(1484)
2721
5263
2542
2013-12-29 00:00:00
2013-12-30 00:00:00
0301_广州碧海大厦FE(301)
4844
6938
2094
2013-12-28 00:00:00
2013-12-29 00:00:00
1484_广州周门丽安大厦FEprc(1484)
2424
3986
1562
2013-12-28 00:00:00
2013-12-29 00:00:00
0301_广州碧海大厦FE(301)
4558
5726
1168
第二步:检查TOP N最坏小区的 、传输、硬件问题,或者是不是由于某突发的外界事件造成,如恶劣天气、集会、节假日的高话务造成;
接下来对每个小区进行健康性检查,主要关注点在日常告警、BPL单板/RRU问题等等,经过检查发现这些站点的切换目标侧都无告警,但这些站点都出现切换过程中在目标侧准备失败的问题。
第三步:检查小区无线参数配置、邻区、小区半径,与正常小区进行比较;
1. 小区状态问题:经过核查,没有问题。
2. 配置问题:小区参数配置,没有问题。
3. telnet到前台发现BPL单板核2无法连接,怀疑单板故障。现场更换BPL单板后,问题解决。
4.2 KPI性能分析基本技能
掌握KPI统计工具及分析工具的应用:
1. 使用工具可以快速了解全网运行情况,快速的筛选出TOP N最坏小区列表;
2. 使用不同的分析工具可以多方位多维度的定位问题,迅速找到问题点;
掌握信令流程和基本原理:
l 异常定位分析中能够有的放矢,根据流程和基本原理能够迅速查找其他的相关指标进行辅助分析。
l 熟悉流程和原理,可以把异常的KPI和网络问题(如覆盖问题、干扰问题等)有机关联,根据异常KPI大致确定问题的性质,从而选择相应分析工具进行深入分析。
性能分析工作要求工程师掌握基本的信令流程,熟悉标准口的协议栈,了解产品实现有哪些相关算法;对于名目繁多的RRM算法,工程师至少要从概念上有所了解,如果分析的商用网络中包含部分算法,则需要对这些算法进行深入的学习。
4.2.1 KPI监控常用工具
l 网管工具NetNumenU31:统计KPI原始数据、告警数据、小区无线参数配置、地面参数配置;
l KPI日报生成工具:对重要指标按某种条件进行分类,筛选出最坏小区;
4.2.2 KPI分析用到的工具
l CNO工具:CNO具有KPI分析功能,可以按照各种条件筛选最坏小区,并且指出该指标对应的计数器;该工具的使用方法参考《ZXPOS CNO1-LTE 应用指导书》或者软件帮助;
l SignalTrace :跟踪ENB各接口信令;可以跟踪S1,X2口以及Uu口(和UE 的RRC层交互信令)的信令,查KPI问题最常用的就是RRC信令。能够进行ENB信令跟踪,这是对外场KPI优化及网优及维护人员的基本要求。该信令跟踪工具非常强大,用于KPI分析的主要是按照小区(UE_Cell)和按照IMSI(或GID)进行跟踪。前者可以跟踪多个用户的信令,后者只跟踪一个用户的信令,但如果RRC链接过程没有完成,则无法跟踪,主要是因为ENB只有在RRC链接过程完成后才能够从CN得到该用户的IMSI。该工具的使用方法参考《TD-LTE(12.13.xx)网管网优常用工具及操作指导书_R1.3》;
l ENB关联日志:关联日志的应用场景一般是:出现异常且没有跟踪到RRC信令,可以通过关联日志进行异常时间上下文信令分析来定位。异常可以按照GID (或IMSI)和小区id来进行查询。关联日志的另一个应用是可以对各种异常进行汇总统计;
l ENodeB LMT :ENodeB本地操作维护的工具,除具备OMCB的全部操作功能外,还可以提供更详细的小区,UE等信息采集。ENodeB的本地维护(LMT)系列工具包括EOMS,MTS
l NodeB 异常探针: 在LTE商用局外场,ENodeB异常探针分析是监控基站运行状况的有效手段,ENodeB各模块在发现异常后会自动记录相关信息,便于定位问题。但此方法需要较专业的背景知识,即需要了解各单板及模块的功能和接口;现场人员如果不能做简单的分析,只要获取异常探针发给后方研发人员就可以。ENodeB上报的异常探针,存储在各自OMCB服务器上。NodeB异常探针分析,需要分别从不同的OMCB服务器FTP下载异常探针文件,再使用异常探针工具进行分析汇总。
l CTS工具:CTS是端对端工具,可以按照IMSI进行深度信令跟踪,尤其可以跨MME边界进行跟踪,这样就非常适合对VIP用户的跟踪;如果采用SignalTrace进行跟踪,则需要多个ENODEB进行跟踪,比较麻烦。CTS可以跟踪内部网元之间的交互信令,可以跟踪S1口及Uu口的信令,这就是所谓的深度跟踪。其基本原理就是在CTS server上建立IMSI任务,将该IMSI任务送到CN前台,CN前台再通过和CN个模块及ENODEB约定好的接口送给各个模块,各模块收集到这个IMSI相关信令后通过前台汇总到CTS server上。上述的接口属于私有接口,所以,这个工具只能支持我们自己的CN和ENODEB(其他厂商的核心网需要进行对接)。CTS信令可以采用离线工具进行查看分析。该工具的使用可参考《TD-LTE CTS信令跟踪工具使用指导手册》
l UE log: KPI指标的分析过程中,DT测试也是非常重要的辅助手段;很多问题,从网络侧的一些信令跟踪及trace常常无法定位问题,只有结合UE log才能最终分析定位。我们常用的路测软件有QXDM/APEX(QCAT),CNT/CNA等。 CNT/CNA都是网优常用路测软件,CNT/CNA的使用方法详见相应的帮助文档及网优工具部对外发布的说明文档。其中高通提供的QXDM及解析工具APEX(QCAT),功能非常强大,多年以来,为我们系统的稳定成熟及提高做出了重大贡献。
4.3 KPI优化分析过程
分析思路:
KPI优化过程就是一个发现问题并解决问题的过程;运维阶段的KPI优化主要是从后台网管提取所关注的性能数据,对性能数据分类汇总,将汇总的值与局方的要求值进行比较,如果某个指标比局方要求的值低,那么就要对该指标进行重点的分析,找到影响该指标的因素并提出解决方案,最后输出报告给局方;如果指标比局方要求的高则不需要特别关注。
KPI指标分析过程是一个从宏观到微观,从全局到局部的一个过程;
1. 第一步,从全网的角度来看重点指标的情况,如果没有什么问题则不用做何处理,否则要定位发生问题的ENB网元;
2. 第二步,对相应CLUSTER指标数据进行分析,找出指标有问题的CLUSTER;
3. 第三步,对问题CLUSTER下面的小区级指标进行分析,找出最坏小区或TOP N小区,如果该CLUSTER所有小区的指标普遍较低,这种共性的现象可能是由于参数设置造成,核查一下该CLUSTER下小区与正常CLUSTER下小区的无线参数配置是否一致;
4. 第四步,综合最坏小区的KPI数据、告警数据、DT测试数据、用户投诉情况四类数据综合分析,提出解决方案。
- 问题排除法:
从网管的告警数据中可以直接检查该ENodeB,BPL板、传输的运行情况,如果问题存在明显的传输断链、硬件设备等,可以很快定位问题原因;
- 突发事件关联:
对大量站点出现的问题就需要考虑是否是由于突发事件造成;比如大型集会、恶劣天气、误操作等都会对网络指标造成影响,根据各自的程度深浅,影响的范围也有所区别;
- 无线参数比较法:
如果出现某些站点突然出现故障,还可以检查该小区无线参数的配置,与其它正常小区的无线参数配置是否一致,如果不一致则改为一致,因为该小区可能是由于无线参数被误改而造成指标下降;
- 指标关联法:
如果某指标较差,一定要看一下与之相关联的指标情况,往往从这些关联的指中能发现共同的问题;
- 综合定位法:
排除了以上几个原因后,运用DT数据、KPI数据、ENB信令分析等数据,综合分析指标问题,可以定位出小区的指标问题。
图 4-1 KPI优化分析流程图
5 KPI优化分析专题
本章主要介绍如何从网管数据来分析指标问题,以及如何结合计数器来优化KPI的思路,每个专题详细的分析方法及案例见各专题优化指导书。
5.1 RRC建立成功率
本章主要从网管的角度来分析问题,通过参数的调整达到优化的目的。
5.1.1 RRC建立成功率的定义
从空口信令上看,RRC建立过程如下:
图 5-1 RRC接入流程
、
本流程图表述了RRC连接建立过程。包含了RRC连接建立成功,RRC连接建立被拒绝和RRC连接建立失败过程。
l 采样点1:eNodeb接收到UE的RRC连接建立请求消息,进行采样统计。
l 采样点2:eNodeb发送RRC连接建立消息,进行采样统计。
l 采样点3:eNodeb接收到RRC建立完成消息,进行采样统计。
l 采样点4:eNodeb发送RRC连接拒绝消息,进行采样统计。
l 采样点5:eNodeb等待RRC连接建立完成消息定时器超时,采样统计。
RRC建立失败常见原因
表 51 掉话常见原因
指标或计数器
指标公式或计数器描述信息
C373200001
mt-Access类型RRC连接失败次数,定时器超时(次)
C373200002
mt-Access类型RRC连接失败次数,eNB接纳失败(次)
C373200003
mt-Access类型RRC连接失败次数,其他原因(次)
C373200005
mo-Signalling类型RRC连接失败次数,定时器超时(次)
C373200006
mo-Signalling类型RRC连接失败次数,eNB接纳失败(次)
C373200007
mo-Signalling类型RRC连接失败次数,其他原因(次)
C373200009
mo-Data类型RRC连接失败次数,定时器超时(次)
C373200010
mo-Data类型RRC连接失败次数,eNB接纳失败(次)
C373200011
mo-Data类型RRC连接失败次数,其他原因(次)
C373200013
highPriorityAccess类型RRC连接失败次数,定时器超时(次)
C373200014
highPriorityAccess类型RRC连接失败次数,eNB接纳失败(次)
C373200015
highPriorityAccess类型RRC连接失败次数,其他原因(次)
C373200017
emergency类型RRC连接失败次数,定时器超时(次)
C373200018
emergency类型RRC连接失败次数,eNB接纳失败(次)
C373200019
emergency类型RRC连接失败次数,其他原因(次)
5.1.2 影响RRC接入成功率的因素
影响RRU接入的主要因素如下,可在优化RRC成功率时参考
1,基站故障
2,基站参数,PRACH配置,最小接入电平设置,
3,上行干扰,NI太高
4,弱场接入,RRC无法完成。
5.1.2.1 弱场接入案例
就某项目外场统计结果来看,RRC接入失败多发生在C373200005(mo-Signalling类型RRC连接失败次数,定时器超时)即初始接入MSG5超时。现场在排除无线环境、NI、基站故障等异常的情况下,仍然发现不少基站存在MSG5超时的问题。查看版本默认配置的小区最小接入电平值(当前为-130dBm),怀疑此值设置过于宽松,容易造成远距离接入而导致MSG5超时。对经常发生MSG5超时的基站统计其TA,TA分布如下。
图 5-2 TA接入统计分布
为了保证接收侧(eNodeB侧)的时间同步,LTE提出了上行定时提前(Uplink Timing Advance)的机制。
在UE侧看来,timing advance本质上是接收到下行子帧的起始时间与传输上行子帧的时间之间的一个负偏移(negative offset)。eNodeB通过适当地控制每个UE的偏移,可以控制来自不同UE的上行信号到达eNodeB的时间。对于离eNodeB较远的UE,由于有较大的传输延迟,就要比离eNodeB较近的UE提前发送上行数据。最终目的是当不同距离的UE接入同一eNodeB时,为了保证上行传输的正交性,避免小区内(intra-cell)干扰,eNodeB要求来自同一子帧但不同频域资源(不同的RB)的不同UE的信号到达eNodeB的时间基本上是对齐的。
1TA=16Ts=16*32.55ns*300000000/2=78m
从以上统计可以看出,问题基站的TA都集中在TA[14,20]以后了,即14*78m=1092m。按照项目现场布局,属于远距离接入,且数量较多符合之前的猜想。对此,项目组决定统一修改小区最小接入电平值由-128dbm改为-120dbm,规避超远距离接入带来的MSG5超时问题同时降低掉话率。
优化措施
2013年12月11日对全网修改此参数后,RRC建立成功率和无线掉线率指标明显提升。
图 5-3 优化后RRC建立成功率
图 5-4 优化后无线掉线率
5.1.2.2 上行干扰案例
提取TOP小区每小时的RRC建立成功率,与每小时粒度的NI相对比,观察是否RRC建立成功率低时,NI值升高。
对比底噪值与RRC连接建立成功率可以发现,当100个RB计数器噪声之和超过-9000dBm之后,RRC连接建立成功率将明显下降。
如果因干扰导致接入成功率突降,需要进行干扰排查
5.1.2.3 基站故障案例
[TDD]西安陕西宾馆新办公楼3小区均出现RRC建立成功率低,核查发现基站出现故障。
小区名称
[TDD]西安陕西宾馆新办公楼
[TDD]RRC连接建立成功率(百分比)
39.43%
RRC失败次数
5575
mt-Access类型RRC连接建立成功次数(次)
7109
mo-Signalling类型RRC连接建立成功次数(次)
1706
mo-Data类型RRC连接建立成功次数(次)
39274
highPriorityAccess类型RRC连接建立成功次数(次)
0
emergency类型RRC连接建立成功次数(次)
0
mt-Access类型RRC连接失败次数,定时器超时(次)
1202
mt-Access类型RRC连接失败次数,eNB接纳失败(次)
897
mt-Access类型RRC连接失败次数,其他原因(次)
470
mo-Signalling类型RRC连接失败次数,定时器超时(次)
471
mo-Signalling类型RRC连接失败次数,eNB接纳失败(次)
2535
网元反复出现如下告警,导致RRC连接建立成功率降低。
网元
告警级别
告警码
发生时间
告警类型
西安陕西宾馆新办公楼
主要
小区退出服务(198094832)
2014-4-14 16:11
服务质量告警
严重
RRU链路断(198097605)
2014-4-14 16:14
处理错误告警
主要
天馈驻波比异常(198098465)
2014-4-14 16:02
设备告警
严重
设备掉电(198092295)
2014-4-14 16:11
设备告警
主要
CPU过载严重告警(198092390)
2014-4-13 11:15
处理错误告警
次要
CPU过载告警(198092391)
2014-4-13 11:12
处理错误告警
主要
光口接收链路故障(198098319)
2014-4-13 10:43
通信告警
主要
单板处于初始化状态(198092348)
2014-4-13 10:39
处理错误告警
严重
软件运行异常(198097604)
2014-4-13 10:39
处
展开阅读全文