基于异常话务量分块建模的预测研究

(整期优先)网络出版时间:2018-02-12
/ 3

基于异常话务量分块建模的预测研究

顾安朋1刘巍琳2林斌3

(1广州供电局广东广州510000;2广州供电局广东广州510000;3烟台海颐软件股份有限公司山东烟台264000)

摘要:95598供电服务热线作为供电企业与最终用户信息传递的重要窗口,在提升客户服务质量上扮演着非常重要的角色。据统计,2016年广州供电局客服中心接起近400万通电话,随着95598业务量的不断增加,如何开展话务预测以便做好人员排班就成为了日常生产管理者头痛的问题。以往的预测算法虽然取得一定的成效,但并未考虑异常话务情况下的独立建模预测。本文提出一种基于异常话务量分块建模方法,并使用预测误差、误差方差等方法与以往建模方法进行结果对比等角度评价模型精度,为实现既保证客服中心服务质量的同时,又能保证人力资源最优的配置提供预测数据,供95598坐席排班参考。通过与实际值的对比进行验证,结果显示该项方法可实现95598客户服务中心高效率运营管理、降低运营成本、提升客户服务质量提供技术支撑,具有较高的推广和应用价值。

关键词:时间序列;线性回归;话务预测

1引言

95598供电服务热线是供电企业与用电客户的交流渠道,提供24小时不间断服务,为客户提供服务的是坐席人员,直接影响着服务质量与服务成本。传统的排班模式需要经验丰富的排班管理人员对话务量进行提前估算,人为主观因素影响比较大、工作量较大,且无法确保话务量预测准确度,尤其是夜间排班既要保证客户来电的及时接通,又要保证坐席人员不能有太多冗余。因此,话务预测就显得尤为关键,科学的话务预测能够指导合理的排班,防止出现系统过载,接通率下降及减少用户投诉的情况发生,对提升客户服务质量至关重要。借助大数据技术,应用时间序列预测技术定期进行话务量预测,可以提前获知未来话务量情况及工作负荷,能够及时了解业务的发展趋势,同时也为后续的预防话务高峰造成的拥塞、系统扩容等提供数据支持。所以,根据长期的话务量数据资料来研究预测不同时段、不同工作日以及法定节假日的话务量趋势是非常有必要的。

1.1国内外现状

目前,国际上基于时间序列的模型主要采用的是季节调整方法,按其原理可分为基于移动平均的季节调整和基于建模的季节调整。基于移动平均的季节调整是指采用一系列移动平均方法将原始序列进行过滤后产生趋势成分,主要包括X类、澳大利亚SABL、德国BV【1】。

对于国内传统的中小型服务企业来说,其拥有的数据规模较小,数据复杂程度较低,利用数据挖掘技术探究话务量预测的影响因素情况并不多,对建立异常话务模型不大关注。

2建模思路

话务量是一种随机的、动态的时间序列变化过程,受天气、季节、节假日、电力业务特点等因素的影响,呈现复杂的变化趋势。目前,已有一些预测工具被应用于话务量预测中,比如,自回归移动平均模型、多元线性回归模型、Kalman滤波估计、BP神经网络等,并都取得了一定的成果。但所有的模型都是针对常规的话务量进行预测,并未考虑和分析异常情况下的话务量预测,在建模过程中只是将话务量异常数据进行剔除或者平滑,并未对异常的话务量数据进行单独建模。而广州95598供电服务热线的话务量主要表现为:周末通知类话务量明显低于工作日通知类话务量,周末总话务量显著低于工作日总话务量;而在节假日之后的一周内,话务量数据是明显高于其他正常时间的话务量数据。此外,每当有电费通知或欠费停电通知,95598话务量都有显著增加。

针对以上话务量自身的特点,本文提出一种基于异常话务量分块建模的分析思路。将话务量分为异常话务量和正常话务量,再根据各自的规律分别建模。最后为了验证模型的有效性,利用相同的方法对总话务量直接建模,以验证异常话务量分开模型的准确性。

3建模步骤

建模的主要思想是通过异常因子相关性建模方法将总话务量分为异常话务量和正常话务量两个部分,并根据各自的发展趋势和规律,建立不同的预测模型,进而得到异常话务量预测值和正常话务量预测值。异常话务量分块建模的基本步骤:首先,找出异常话务量,确定异常因子。从统计分析和建模角度利用多种异常值检验方法、从呼叫中心话单特征角度利用业务探索方法、从外部学习角度利用文献综述法找出引起异常话务量的原因。其次,确定可分析的异常因子。根据影响因子影响力大小、影响因子数据可得性、影响因子是否可预见、影响因子是否存在特定规律等特征筛选出可进行数据分析和建模的话务量影响因子。第三,拆分话务量并分别进行预测。利用相关性分析和建模,从总话务量中分离出异常因子引起的话务量(异常话务量)和正常话务量两类,再分别利用自回归移动平均模型、支持向量机和BP神经网络模型对异常话务量、正常话务量进行分别建模和预测,总话务量预测值=异常话务量+正常话务量,最后对比验证。

3.1异常话务量影响因子分析

本文采用2013年-2015年每天的话务量数据进行异常值检测。通过正态判别法,判断2013-2015年的日话务量数据符合正态分布,再采用3S准则判定异常值以及对应日期。从而确定影响异常话务量的影响因子。

话务量异常值建模检测。从整体来看,可以将话务量影响因素分为以下四大类:第一:临时扰动事件。临时扰动因素指的是可以预见但不存在特定规律的事件,比较典型的是不定期的检修活动、临时停电活动、异常恶劣天气等。如果能够预见到类似事件,则一定要预估其作用时间及幅度,并相应的修正话务量。第二,特定扰动事件。特定扰动因素是指在可以预见且在一定时间内存在一定规律的异常事件,主要包括以下几类,季度检修引起的计划停电、涉及周末和节假日的特定日期因素、夏季电压负荷相关的特殊时节因素以及自身业务特点相关的电费通知发布、欠费通知发布、停电通知发布、执行停电通知发布等因素。第三,临时特定事件。临时特定因素是指不可预见但存在一定规律的异常事件,主要包括以下几类,电网设备衰老、用户计费设备老化、电网运行管理等。第四,随机事件。此类事件不可预见也不存在规律,比如系统故障、意外故障等随机因素。

有效的异常话务量影响因子。话务量异常值建模检测根据异常话务量数据分析和建模的要求,按照异常影响因子对话务量的影响程度大小、异常影响因子的数据可得性、数据时间前后统一性等要求,将所有影响因子进行排查,最后确定影响话务量的3类因子:业务特点、异常天气和特殊日期。

业务特点:为了提高电力服务质量,电网公司每月7-13号向用户发出电费缴费短信通知。一般来说,在电费短信发出后的5-7天会对仍然未缴费的用户发出欠费通知。如用户欠费之后的30天内还未缴费,则会发布停电通知信息,如用户还是未缴费,则会发出执行停电通知,无论是电费通知、欠费通知还是停电通知以及执行停电通知都会引起用户的电话呼入,进而引起话务量突发增加。

异常天气:雷雨大风、冰雹、暴雪、强降雨等极端破坏性天气会引起洪涝/暴雨进而引起电网事故,破坏电网设备,进而引起用户停电。

特殊日期:经过探索性分析,发现国家法定假日的话务量显著小于正常日期的话务量。此外,周末的话务量也比工作日的话务量少很多。

因广州供电局自2016年4月后开始使用新系统,使用新系统后电费通知、欠费通知、停电通知等相应的规则发生的变化,为保持数据一致性和有效性,只能采用2016年7-11月的数据进行建模和预测,查看2016年7-11月天气,广州地区内并未发现极端破坏性天气,故主要分析业务特点你和特殊日期引起的异常话务量。

3.2数据预处理

本次建模和预测主要考虑直接调整、权重调整、缺失值处理等三种方法对国定假日进行调整和平滑。其中直接调整是指假设节假日及之后一周话务总量不变,因工作日和周末话务量有明显的趋势,故利用一个星期每天的平均话务量占比作为权重,按权重调整话务量。权重调整是考虑话务量自身可能存在逐步增长的趋势,故在直接调整的基本上,将第一周和第二周数据按照4:6的权重进行话务量的分配。缺失值处理是指在将国定假日期间的话务量当作缺失值处理,分别采用前后一周均值替代,直接删除,插值法等进行调整。通过多次预测验证,发现直接调整的精度普遍高于权重调整和缺失值处理。故对总话务量数据、通知类话务量数据、其他话务量数据进行直接调整。总话务量的调整过程如下:

(1)中秋节调整

(2)神经网络建模的基本步骤

通过业务分析可知,影响当天通知类话务量的因子主要包括以下几种:前一周的通知类话务量、前一周的电费和欠费通知发布量、工作日和周末的0-1变量。

在为期三周的预测中,最大外推预测误差平均为26.5%,最小外推预测误差精度平均为12.1%。在为期三周的预测中,第一周和第二周的自回归移动平均建模中均未考虑工作日和周末因素,由前两周的误差率可看出误差率最高的两天均为周末。故在第三周的预测中,将工作日和周末进行分开建模,由第三周误差率可看出,第三周每天的预测误差精度较为平稳。

(2)神经网络建模

在神经网络的建模过程中,考虑一周内不同输出变量对预测值的影响。主要考虑三种情况:第一类包括通知类话务量前7天、短信通知发布量当前及前7天,工作日和非工作日等15个变量;第二类包括通知类话务量前7天,工作日和非工作日等8个变量;第三类包括短信通知发布量前7天,工作日和非工作日等8个变量。在进行对比过后发现第二类和第三类的精度普遍高于第一类,故对第二类和第三类输出变量,进行多组参数值对比,并计算精度。由下表可知,神经网络在进行一周的预测过程中,最低样本内预测误差能达到7.97%。在实际预测过程中,因无法提供最新的短信发布量数据,故支持向量机预测及其精度仅为样本内预测精度。

(3)支持向量机建模

在神经网络的建模过程中,考虑不同输出变量对预测值的影响。主要考虑三种情况:第一类包括通知类话务量前7天、短信通知发布量当前及前7天,工作日和非工作日等15个变量;第二类包括通知类话务量前7天,工作日和非工作日等8个变量;第三类包括短信通知发布量前7天,工作日和非工作日等8个变量。由下表可知,输入变量为短信通知发布量、工作日和非工作日等8个自变量,输出变量为通知话务量时,预测误差精度较高。在实际预测过程中,因无法提供最新的短信发布量数据,故支持向量机建模的预测结果及其预测精度仅为样本内预测精度。

对比三个模型,发现自回归移动平均模型的最低外推平均预测误差可达10%左右;神经网络建模的最低样本内平均预测误差可到8%左右;支持向量机模型的最低样本内平均预测误差可到6.5%左右。

在实际建模和预测过程中,因神经网络和支持向量机的输入变量均包含影响当期话务量数值的当期及前几期的短信通知发布量,故在实现对话务量进行样本外预测时,需要提前预测短信发布量的数据,这部分预测可能会增加话务量预测值的误差。同时,随着预测时间的增加,预测误差会越来越大。

3.4预测结果与实际排班情况对比

在为期三周的话务量预测中,为了减少时间推移误差我们选用自回归模型进行预测,可看出本模型的三周预测精度平均为12.75%,原排班组预测系统的平均预测精度为34.08%。原排班组预测系统的最低预测误差为1.7%,最高预测误差为105.41%,而本模型预测最高预测误差为52.09%,最低预测误差为0.17%。由三周话务预测误差对比表可知,本模型话务量预测较为平稳,波动不大,且与真实值更为接近。

4结论

不同行业、不同业务场景适用不同的预测模型,根据预测维度的不同预测模型的准确率也可能有不同,每种模型式有它的适用范围,不能一概而论地认定某种预测模型好用或者更准确,各种公式需要不停的去试算、验证、分析,才能更深层次地挖掘出各种公式的精髓,找出适合自己现场运营特点的最优预测公式。本文利用自回归模型对总话务量进行异常话务建模和预测,将预测结果与分块建模预测结果进行对比,同时为了验证模型的实用性,与95598呼叫中心的排班组进行为期三周的预测结果对比。实践证明,异常话务量分块建模比传统话务量预测结果精度更好,且异常话务量分块建模为期三周的预测精度均比目前南方电网排班组的预测结果精度更高,未来可进一步落地实现,具有较高的推广和应用价值。

参考文献

【1】陈光慧,邢竟.基于平衡轮换样本调查的季节调整方法研究,,暨南大学,2006年.

【2】张昊.电力调度自动化系统及电力负荷智能化预测方法的研究.华南理工大学博士学位论文,1997.

【3】胡波,李磊.含野值的中长期话务数据分析方法研究.武汉水利电力大学学报,2000年6月.

【4】程伟.基于季节变动模型的话务量预测[J].电信技术,2000(10).

【5】胡毅,李磊.改进自回归算法在电信话务量预测中的应用.计算机工程与应用,2001(3).

【6】邓聚龙.灰色预测预决策.武汉:华中理工大学出版社,1986.

【7】谢开贵,周家启.变权组合预测模型研究.系统工程理论与实践,2000.

【8】任君明.基于数据挖掘技术的移动通信话务预测模型.电信工程技术与标准化,2015.