基于缺失属性补全的电力负荷预测研究

(整期优先)网络出版时间:2016-12-22
/ 1

基于缺失属性补全的电力负荷预测研究

张庭源

(华润电力(常州)有限公司江苏常州213000)

摘要:电力负荷预测是电力调度系统中的一项非常重要的工作,它关系到电厂各机组的运行计划,预测结果的准确性直接影响着电力部门的经济效益。负荷预测是根据负荷历史数据和其它各类相关影响因素进行预测的,因此其预测精度很大程度上取决于历史数据的准确性。

关键词:负荷预测;缺失值;准确性

引言

数据挖掘技术是在所有属性值均已知确定的前提下使用的,很多情况下,尤其是大型公司企业每天都会采集数以亿计的信息数据,经常会出现某些样本的一些属性值丢失现象。由于属性值和该样本不是相关联的,或者采集样本时未对它进行记录,或者把数据录入数据库时人为造成的错误,从而出现样本属性值缺失现象。

1决策树C4.5算法

决策树的“分而治之”方法是由澳大利亚悉尼大学的J.R.Quinlan开发和完善的。他于1986年在机器学习杂志上发文介绍了ID3算法,该算法基于信息熵理论,是当时最早和最有影响的决策树算法。该算法是以信息增益作为测试属性的选择标准,但由于信息增益度量倾向于许多值的属性,取值较多的属性不一定是最佳的属性,所以该算法存在一定的偏差和误区;只能处理具有离散值的属性,没有考虑训练集中的缺值问题,所以ID3算法有待进一步改进。C4.5算法是在ID3算法基础上的改进,不仅可以处理离散值属性,还能够处理连续值属性。C4.5算法采用信息增益率作为选择测试属性的标准,信息增益率的计算方法如下:

3算例仿真

本文采用样本相似度原则对缺失属性值进行补全,然后根据决策树C4.5算法对短期电力负荷进行预测分析。采用江苏省2013年3月1日到3月14日的历史负荷数据,用前面提到的样本相似度原则对缺失属性值进行补全,然后再利用决策树C4.5算法形成决策树,从而对未来电力负荷进行预测。下面给出具体数据如表1所示。

首先,确定目标属性和条件属性。由于表中给定的数据只有温度、相对湿度、日类型和负荷数据,所以根据经验可将数据中的温度、相对湿度和日类型属性定为条件属性,将负荷属性定为目标属性。

其次,由表中数据可知,温度、湿度和负荷数据属性值均为连续型数据,其中温度和相对湿度能直接应用于算法中,因为决策树C4.5算法能够处理连续型属性值,但负荷数据是目标属性,算法不能直接处理,所以需要对负荷数据进行离散化。本文将负荷平均划分为四类,算例中的负荷数据均在区间[42833,545412]内,所以将区间划分为四部分,即四个类型:[42833,45760]、[45760,48687]、[48687,51614]、[51614,54542],本文分别用1、2、3、4代替这四个类型。

图1负荷预测值与实际值的对比曲线图

最后,根据前面提到的公式和方法,利用MATLAB软件对决策树C4.5算法进行编程仿真,将处理后的数据代入程序,根据结果分析得到决策树,根据决策树形成规则,利用这些规则就可以对该省2013年3月15日到3月28日的负荷进行预测分析。

图中,外面两条虚线是负荷预测的区间值连线,中间实线是由负荷实际值连成的曲线,由图中曲线可以看出,除了个别样本的负荷点外,其它负荷实际值都落在了负荷预测的区间内,说明了本文提出的采用样本相似度原则补全缺失属性值应用到电力负荷预测中是具有很好的实用性和准确性的,能够准确预测出未来的电力负荷值,为电力负荷预测提供有力依据。

4结论

决策树算法是分类算法中在实际应用方面较多的算法。正确处理算法中出现的属性缺失值是数据挖掘处理中的一个比较困难的问题,如何从不完整的数据库中获取决策规则一直是决策树算法的重要任务。

参考文献

[1]陈星莺,张晓花,瞿峰,刘皓明,赵波.数据挖掘在电力系统中的应用综述[J].电力科学与技术学报,2007,22(3):51-56.

[2]王平,张亮,陈星莺.基于模糊聚类与RBF网络的短期负荷预测[J].继电器,2006,34(10):64-67.

[3]廖志伟,孙雅明.数据挖掘技术及其在电力系统中的应用[J].电力系统自动化,2001,25(11):62-66.

[4]崔旻,顾洁.电力系统中长期负荷预测的改进决策树算法[J].上海交通大学学报,2004,8:46-49.

[5]李邦云,丁晓群,程莉.基于数据挖掘的负荷预测[J].电力自动化设备,2003,23(8):52-55.