摘要
针对传统奇异值阈值(Singular Value Thresholding,SVT)数据恢复算法在对电力负荷数据恢复中忽视数据先验信息以及大规模数据计算效率低等问题,提出一种基于相空间重构与自适应变步长的改进SVT的数据恢复算法. 为解决传统SVT容易忽视数据先验信息的问题,引入相空间重构算法将原始缺失数据映射到高维空间,利用数据间的关联性和结构特征,为后续数据恢复算法提供先验知识;结合对数与Sigmoid函数构建变步长基础函数,并利用等比项提高前期步长,构建自适应变步长SVT算法,克服传统SVT在大规模数据情况下计算效率低的问题. 结合多项公用电力负荷数据集及多种常用电力负荷数据恢复算法进行对比实验分析,结果表明,改进SVT算法可获得更好的数据恢复效果,收敛速度、精度以及稳定性得到提升,具有较强的工程实用性.
随着智能电网建设的推进,大规模监测设备纳入电力系统,使得电力数据呈指数式增
目前,针对电力数据恢复国内外主要关注三个方面的研
机器学习方法基于历史数据的趋势,构建预测模型实现缺失样本预测并补全. 随机森林填补
近年来,矩阵补全方法在图像处理、视频修复等领域广泛应
目前,研究表明,电力负荷数据、低压台区用电数据等电力数据都具有周期性、相关性、随机性等多种特征,均表现出低秩
为此,本研究针对海量电力数据中含有缺失、异常值等问题,开展基于改进SVT的电力负荷数据恢复算法的研究,以实现精度与速度的最优平衡.
1 相空间重构
1.1 相空间重构过程
相空间重构是一种基于时间序列数据的分析方法,主要用于从一维时间序列数据中提取系统的多维动态行为. 基于Takens定理,通过将一维时间序列嵌入到多维相空间中,恢复原始系统信息.
Packard
(1) |
式中:为延迟时间;为嵌入维数,这里为矩阵的行数;为相空间重构矩阵的列数. 如果延迟时间过短,相空间向量中的两个坐标分量之间的数值非常接近,无法相互区分,将导致无法提供两个独立的坐标分量. 相反,如果延迟时间过长,两个坐标分量完全独立,将导致重构矩阵中相邻两行的数据毫无相关
1.2 延迟时间的确定
在相空间重构和时序数据分析过程中,延迟时间的选择很重要,需采用适当方法确定合适的延迟时间,在独立性和相关性间取得平衡. 自相关函数法(Autocorrelation Function, ACF)和互信息法(Mutual Information, MI)是目前被广泛使用的方法,其中,ACF通过观察延迟时间对自相关函数的影响,进而找到一个合适的延迟时间,使得在相空间重构中能够捕捉到系统的重要动力学特征,算法简便有效,但只能提取时序数据的线性相关
相较于ACF,MI具有更强的非线性表达力,可以衡量两个变量间的相关性和依赖关系,从而更好地平衡相空间内部的关
(2) |
式中:为单变量时间序列;为延迟后得到的新序列;和分别为变量和的边际概率分布;为变量和变量的联合概率分布.
取不同的,依次计算系统变量间的互信息为:
(3) |
式中:表示系统的信息熵.
绘制互信息函数随的变化图,并取第一次至极小点的值确定相空间重构的延迟时间.
1.3 嵌入维数的确定
在嵌入维数的选取过程中,要充分考虑模型的准确性、噪声影响和计算效率等因素. 常见方法主要有基于混沌评判指标的方法和基于相空间重构效果的方法. 前者通过计算不同下的混沌评判指标,评估不同下的结果是否收敛,选取稳定状态下的维数作为嵌入维数;后者针对不同的开展实验,通过观察重构结果,确定最终嵌入维
本文基于相空间重构效果确定嵌入维数,通过对比不同嵌入维数下的模型效果选择最佳嵌入维数,流程如

图1 相空间重构嵌入维数m选择流程
Fig.1 Phase space reconstruction m selection process
相空间重构将含缺失值的海量电力时序数据映射到高维空间,充分利用数据间的关联性和结构特征,为后续数据恢复算法的运行提供先验知识.
2 基于改进SVT的数据恢复算法
与传统的数据恢复算法相比,SVD在数据恢复过程中表现出明显的线性无偏性、最佳逼近性、自适应性与鲁棒性等优
2.1 基于SVT的数据恢复算法
与SVD不同,SVT在对矩阵进行奇异值分解后通过奇异值进行软阈值处理,将矩阵的秩降低到数据所需的级别,并重新构造矩阵. 其主要步骤如下.
1)输入数据准备. 对于由含缺失值数据的单变量序列进行相空间重构后的矩阵,将其表示为一个已知部分和一个未知部分之和. 即
(4) |
式中:为进行奇异值分解前的输入矩阵;和分别为输入矩阵中已知部分的矩阵和未知部分的矩阵.
2)矩阵初始化. 对于未知部分的矩阵,本文进行零值填充处理,并且使用零矩阵初始化输入矩阵的类似矩阵.
3)迭代更新过程. 通过迭代过程逐步改善未知部分的矩阵的估计,主要过程如下.
步骤1:奇异值分解. 对矩阵进行奇异值分解,得到的奇异值和奇异向量,分解式为:
(5) |
式中:、为正交矩阵;Σ为对角矩阵;对角线上的元素为奇异值;、分别为矩阵的行数和列数.
步骤2:奇异值的软阈值处理. 将对角矩阵中的每个元素都减去一个阈值,并将小于零的元素置零,即去除小于阈值的奇异值,并保留大于等于阈值的奇异值,该过程可以表示为:
(6) |
式中:为处理后的第个奇异值;为原始的第个奇异值;为设定的奇异值阈值.
步骤3:矩阵重构. 使用经阈值处理后的奇异值和奇异向量,重构估计矩阵,重构过程为:
(7) |
步骤4:更新. 通过给定的更新步长,结合输入矩阵和估计矩阵的差值,对奇异值分解矩阵进行更新,更新过程为:
(8) |
式中:为初始化全零矩阵;为给定步长值;为原始输入矩阵的掩码矩阵.
步骤5:终止条件检查. 通过判断算法是否达到设定的最大迭代次数或矩阵的重构误差是否达到设定阈值来检查迭代是否达到终止条件,如果终止条件满足,算法结束;否则,返回步骤3. 以矩阵的二范数式表示重构误差.
(9) |
4)输出结果. 在算法收敛后,得到最终的估计矩阵作为原始矩阵的恢复结果. 然而,考虑到原始样本为含缺失值的单变量时间序列数据,因此,在最终数据缺失值的恢复上,需要对恢复矩阵进行重构使其变为一维时序数据. 具体为:
(10) |
(11) |
(12) |
式中:为重构后原始单变量样本对应的第个数;为原始单变量样本的数据总量;为的行数;为的列数;和分别为对应矩阵中相关数据所存在的最小行与最大行,通过计算得出大小.
2.2 改进的SVT数据恢复算法
SVT数据恢复算法的收敛性和速度受步长选择影响,步长过大会导致算法发散,无法收敛到最优解,步长过小则使收敛速度变慢,增加计算成本. 针对上述问题,本文提出自适应变步长SVT算法,动态调整步长大小,确保算法收敛性和速度的最佳平衡.
变步长自适应算法通常根据当前误差调整步长,常见调节函数包括双曲正切和Sigmoid函数. 本文提出改进的Sigmoid函数变步长方法,结合等比项,先基于对数和Sigmoid函数构建变步长基础函数,再引入等比项以加速前期收敛.具体为:
(13) |
(14) |
(15) |
式中:为步长因子调节函数;为垂直尺度因子;为水平尺度因子,通过调节和可调节函数幅值与形状;为第次迭代的误差大小;为等比项,由于,该项可提高前期收敛速度而不影响后期效果.
改进后,原本基于SVT的数据恢复算法的步骤4,变为利用
(16) |
改进后的数据恢复流程如

图2 数据恢复流程图
Fig.2 Flowchart for data recovery
3 实验分析
实验采用Python语言,在PyCharm平台进行. 通过比利时Elia电网总负载数据集(以下简称Elia数据集)和美国每日负荷公开数据集(以下简称美国数据集),针对不同缺失度验证本文算法的恢复精度和有效性.对比方法包括多项式插值法、三次样条插值法、随机森林填补法及传统SVT算法.
3.1 相空间重构参数选取实验
经MI选取合适的延迟时间后,对嵌入维数进行实际数据分析,选取均方根误差(Root Mean Square Error,RMSE)和决定系数
RMSE是恢复结果与原始数据之间误差的平方和均值的平方根,能够反映整体准确性.RMSE值越小表示模型的恢复能力越好,其计算式为:
(17) |
式中: RRMSE为均方根误差;为样本数据的个数;表示真实值;表示填补值.
决定系数
(18) |
式中:表示样本均值.
本文通过相空间重构效果确定嵌入维数,比较不同维度下模型效果,选择最佳维数.

图3 不同m下RRMSE变化趋势
Fig.3 Variations of RRMSE with different m

图4 不同m下
Fig.4 Variations of
3.2 改进SVT数据恢复算法的效果验证
将Elia数据集和美国数据集随机缺失30%用于验证改进SVT数据恢复算法的数据恢复效果,结果分别如

图5 Elia数据集数据恢复效果
Fig.5 Data recovery effectiveness of Elia data set

图6 美国数据集数据恢复效果
Fig.6 Data recovery effectiveness of USA data set

图7 不同迭代次数下RRMSE变化趋势
Fig.7 Variations of RRMSE with different iteration counts

图8 不同迭代次数下
Fig.8 Variations of
3.3 对比实验
在Elia数据集和美国数据集进行实验时,完全随机地使数据缺失度从10%变化到80%,增幅为10%. 同时,采取在电力负荷数据恢复领域应用广泛的多项式插值法、三次样条插值法、随机森林填补法、传统SVT算法为对比对象,比较改进SVT算法与其他算法的恢复效果差异,结果分别如
缺失度/% | 多项式插值法 | 三次样条插值法 | 随机森林填补法 | 传统SVT算法 | 改进SVT算法 | |||||
---|---|---|---|---|---|---|---|---|---|---|
RRMSE | RRMSE | RRMSE | RRMSE | RRMSE | ||||||
10 | 0.044 6 | 0.950 1 | 0.031 3 | 0.975 4 | 0.031 8 | 0.974 6 | 0.034 5 | 0.970 0 | 0.014 8 | 0.994 5 |
20 | 0.076 5 | 0.853 4 | 0.053 9 | 0.927 3 | 0.050 3 | 0.936 6 | 0.037 8 | 0.964 1 | 0.027 1 | 0.981 5 |
30 | 0.099 6 | 0.751 4 | 0.074 4 | 0.861 2 | 0.066 7 | 0.888 5 | 0.039 3 | 0.961 3 | 0.032 2 | 0.974 0 |
40 | 0.122 7 | 0.622 7 | 0.104 3 | 0.727 6 | 0.083 0 | 0.827 4 | 0.049 0 | 0.939 7 | 0.045 7 | 0.942 5 |
50 | 0.135 4 | 0.541 2 | 0.123 4 | 0.618 6 | 0.097 3 | 0.763 0 | 0.054 4 | 0.925 7 | 0.051 2 | 0.930 2 |
60 | 0.143 0 | 0.488 0 | 0.148 8 | 0.445 8 | 0.114 0 | 0.674 6 | 0.059 3 | 0.911 9 | 0.056 3 | 0.915 4 |
70 | 0.145 7 | 0.468 7 | 0.178 8 | 0.199 7 | 0.126 8 | 0.597 0 | 0.076 9 | 0.851 7 | 0.073 2 | 0.861 2 |
80 | 0.146 6 | 0.466 5 | 0.189 3 | 0.103 1 | 0.136 4 | 0.533 7 | 0.091 5 | 0.790 2 | 0.084 1 | 0.819 8 |
缺失度/% | 多项式插值法 | 三次样条插值法 | 随机森林填补法 | 传统SVT算法 | 改进SVT算法 | |||||
---|---|---|---|---|---|---|---|---|---|---|
RRMSE | RRMSE | RRMSE | RRMSE | RRMSE | ||||||
10 | 0.064 5 | 0.912 8 | 0.016 9 | 0.993 9 | 0.021 1 | 0.990 6 | 0.027 7 | 0.983 8 | 0.018 1 | 0.993 0 |
20 | 0.110 1 | 0.746 2 | 0.030 7 | 0.980 2 | 0.030 2 | 0.980 8 | 0.031 2 | 0.979 5 | 0.023 3 | 0.988 6 |
30 | 0.147 4 | 0.545 5 | 0.049 5 | 0.948 7 | 0.048 9 | 0.949 9 | 0.035 2 | 0.974 0 | 0.030 1 | 0.981 0 |
40 | 0.174 3 | 0.364 6 | 0.065 2 | 0.910 8 | 0.056 1 | 0.934 1 | 0.043 1 | 0.961 0 | 0.041 5 | 0.969 2 |
50 | 0.192 3 | 0.226 3 | 0.082 3 | 0.866 1 | 0.063 8 | 0.914 6 | 0.045 4 | 0.956 8 | 0.044 0 | 0.959 3 |
60 | 0.202 6 | 0.141 3 | 0.095 2 | 0.810 2 | 0.083 3 | 0.854 7 | 0.057 6 | 0.930 5 | 0.055 3 | 0.934 8 |
70 | 0.206 2 | 0.110 1 | 0.108 1 | 0.755 4 | 0.096 6 | 0.804 7 | 0.076 1 | 0.878 8 | 0.074 6 | 0.883 4 |
80 | 0.207 0 | 0.103 8 | 0.127 1 | 0.661 8 | 0.101 4 | 0.784 6 | 0.092 3 | 0.821 5 | 0.085 2 | 0.847 9 |
4 结 论
本文提出了一种基于改进SVT的数据恢复算法用于电力负荷数据恢复. 利用相空间重构获取电力负荷时间序列数据的隐藏信息和先验知识,深入挖掘时间序列更多的信息;基于SVT算法收敛速度慢、收敛精度不足的缺陷,利用对数与Sigmoid函数进行变步长基础函数构建,引入等比项以获取更快前期收敛速度,基于此构建自适应变步长SVT算法,提升算法的收敛速度、收敛精度与稳定性. 通过在不同数据集上与其他常用的数据恢复算法进行对比分析,结果表明,本文提出算法收敛速度更快,精度更高且具有良好的普适性.
参考文献
张东霞,苗新,刘丽平,等.智能电网大数据技术发展研究[J].中国电机工程学报,2015,35(1): 2-12. [百度学术]
ZHANG D X,MIAO X,LIU L P,et al.Research on development strategy for smart grid big data[J].Proceedings of the CSEE,2015,35(1): 2-12.(in Chinese) [百度学术]
李富柏, 焦瑞莉, 薄宇, 等. 基于DTWKNN的电力缺失数据补全方法[J]. 北京信息科技大学学报(自然科学版),2023, 38(5):32-38. [百度学术]
LI F B,JIAO R L,BO Y,et al.Power missing data completion method based on DTWKNN[J].Journal of Beijing Information Science & Technology University,2023,38(5):32-38.(in Chinese) [百度学术]
洪德华,张翠翠,宫政,等.基于改进双向GABP神经网络的电力负荷缺失数据补全方法[J].电气自动化,2022,44(5):41-45. [百度学术]
HONG D H,ZHANG C C,GONG Z,et al.Method of completing power load missing data basedon improved bidirectional GABP neural network[J].Electrical Automation,2022,44(5):41-45.(in Chinese) [百度学术]
陆嘉铭, 奚增辉, 瞿海妮,等.电力量测数据缺失补齐方法研究与实践[J].电力大数据, 2023, 26(7): 40-49. [百度学术]
LU J M,XI Z H,QU H N,et al.Research and practice on power measurement data missing value imputation methods[J].Power Systems and Big Data, 2023, 26(7): 40-49.(in Chinese) [百度学术]
刘灏,杨智伟, 毕天姝, 等.基于优先级分配策略的PMU数据恢复方法[J].电网技术, 2018, 42(9): 2814-2820. [百度学术]
LIU H,YANG Z W,BI T S,et al.PMU data recovery method based on priority allocation strategy[J].Power System Technology,2018, 42(9): 2814-2820.(in Chinese) [百度学术]
马颢.针对多源数据的变压器状态评估方法研究[D].济南:山东大学,2023. [百度学术]
MA H.Research on transformer condition evaluation method for multi-source data[D].Jinan:Shandong University,2023.(in Chinese) [百度学术]
RYU S,KIM M,KIM H.Denoising autoencoder-based missing value imputation for smart meters[J].IEEE Access,2020,8:40656-40666. [百度学术]
王守相,陈海文, 潘志新, 等.采用改进生成式对抗网络的电力系统量测缺失数据重建方法[J].中国电机工程学报,2019, 39(1):56-64. [百度学术]
WANG S X,CHEN H W,PAN Z X,et al.A reconstruction method for missing data in power system measurement using an improved generative adversarial network[J].Proceedings of the CSEE, 2019, 39(1): 56-64.(in Chinese) [百度学术]
李富盛, 陈伟松, 钱斌,等. 面向低压配电网智能电表误差监测的LightGBM-EM-EC多变量缺失数据高效重建[J]. 中国电机工程学报, 2022, 42(增刊1): 95-105. [百度学术]
LI F S, CHENG W S, QIAN B, et al. Efficient reconstruction of multivariate missing data for smart meter error monitoring in low voltage distribution network based on LightGBM-EM-EC[J]. Proceedings of the CSEE, 2022, 42(Sup.1): 95-105. (in Chinese) [百度学术]
洪文慧, 李钦豪, 张勇军, 等. 基于二次矩阵补全的低压配电网相序识别算法[J]. 电力自动化设备, 2022,42(9): 133-138. [百度学术]
HONG W H,LI Q H,ZHANG Y J,et al.Quadratic matrix completion based phase sequence identification algorithm for low-voltage distribution network[J].Electric Power Automation Equipment,2022,42(9):133-138.(in Chinese) [百度学术]
ZHUANG C J, AN J W, LIU Z Q, et al. Data completion for power load analysis considering the low-rank property[J]. CSEE Journal of Power and Energy Systems, 2022, 8(6): 1751-1759. [百度学术]
DONTI P L,LIU Y J,SCHMITT A J,et al.Matrix completion for low-observability voltage estimation[J]. IEEE Transactions on Smart Grid, 2020, 11(3): 2520-2530. [百度学术]
GHASEMKHANI A,NIAZAZARI I,LIU Y C,et al.A regularized tensor completion approach for PMU data recovery[J].IEEE Transactions on Smart Grid, 2021, 12(2): 1519-1528. [百度学术]
王毅,李鼎睿,康重庆.低秩矩阵分解在母线坏数据辨识与修复中的应用[J].电网技术, 2017, 41(6): 1972-1979. [百度学术]
WANG Y, LI D R, KANG C Q. Application of low-rank matrix factorization in bad data identification and recovering for bus load[J]. Power System Technology,2017,41(6):1972-1979.(in Chinese) [百度学术]
陈蕾, 陈松灿.矩阵补全模型及其算法研究综述[J].软件学报,2017,28(6):1547-1564. [百度学术]
CHEN L,CHEN S C.Survey on matrix completion models and algorithms[J].Journal of Software,2017,28(6):1547-1564.(in Chinese) [百度学术]
PACKARD N H, CRUTCHFIELD J P, FARMER J D, et al. Geometry from a time series[J]. Physical Review Letters, 1980, 45(9): 712-716. [百度学术]
段文锋,张冀宁,黄卫星,等.相空间导数重构法的探讨[J].四川大学学报(工程科学版), 2001, 33(5): 102-106. [百度学术]
DUAN W F, ZHANG J N, HUANG W X, et al. Study on the derivative reconstruction method[J]. Journal of Sichuan University (Engineering Science Edition),2001,33(5):102-106.(in Chinese) [百度学术]
XU B B,JACQUIR S,LAURENT G,et al.Analysis of an experimental model of in vitro cardiac tissue using phase space reconstruction[J].Biomedical Signal Processing and Control,2014,13:313-326. [百度学术]
LI H W, LIU J P, LI T, et al. Analysis of dynamic of two-phase flow in small channel based on phase space reconstruction combined with data reduction sub-frequency band wavelet[J].Chinese Journal of Chemical Engineering, 2015, 23(6): 1017-1026. [百度学术]