摘要
针对舞台多轴同步系统因执行器退化导致无法满足控制任务时限要求, 现有维护策略难以达优的问题, 提出一种基于强化学习的舞台多轴同步系统预测维护策略.首先将强化学习以串级方式引入, 构建具有寿命预测与自主维护能力, 能以不同采样率分而治之的控制架构;其次, 聚焦介入维护策略及多源不确定性对执行器退化过程的影响, 基于卡尔曼(Kalman)滤波、期望最大化和固定间隔平滑等算法, 通过对执行器退化状态的实时感知、估计及退化模型的自适应更新, 确保多轴同步系统剩余寿命预测精度;结合系统期望工作时限与剩余寿命预测的偏差、执行器实时退化状态等构建Q-learning算法的目标函数, 通过不断试错对维护控制量做出最优调整, 以获得最大的寿命延长奖励, 从而实现了舞台多轴同步系统智能优化维护. 通过舞台多轴同步系统仿真实验验证了所提方法的有效性, 提高了系统维护效能.
舞台造型的多层次变化决定了其展现效果及表现力, 而这种变化又依赖于舞台控制系统. 多轴同步控制因其具有更大负载驱动能力、高效灵活运动方式、可协调系统各轴间的运动等优势, 已广泛应用于舞台演绎领
近年来, 随着对重大装备安全性要求的提高和信息、计算等技术的迅猛发展, 预测性维护(predictive maintenance, PdM)作为一种新型的维护策略应运而
随着人工智能技术的迅猛发展, 强化学习(reinforcement learning, RL)方法在解决大规模复杂决策问题方面展现出巨大的潜力. RL通过与未知环境的交互学习, 获取反馈信号并不断调整策略, 以逐步提高智能体的性
要实现舞台多轴同步系统的健康PdM, 前提是根据部件退化数据准确预测系统的RUL. 目前有关独立设备或部件级设备的RUL预测方法已较为成熟, 根据建模方式不同, 寿命预测方法可分为基于机理模型的方法、基于数据驱动的方法以及二者相融合的方
此外, 无论是单回路还是多回路系统,考虑到系统部件退化通常都会经历长期缓慢的变化过程, 而系统状态则因需要变化较快,因此,健康维护策略的施加频率也就无须与系统状态监测、控制的频率相同, 相反短周期监控与长周期维护干预不仅有利于节约计算与存储资源,而且对于系统控制本身和维护的时效性也更加符合实际情况.因此,针对舞台多轴同步系统,如何通过层次结构的区分和控制策略的选择,构建一个基于多采样率的健康感知反馈调节的智能体系架构,是实现预测性维护(PdM)的基础.
鉴于此,本文旨在针对舞台多轴同步系统的预测维护需求,开展如下创新性研究工作:
首先以串级方式将RL引入舞台多轴同步系统, 构建了在维护层与控制层, 能以不同采样率分而治之的智能PdM体系架构;其次, 考虑多源不确定及介入维护策略后对执行器退化模型的影响, 利用Wiener过程对其退化建模, 采用Kalman滤波、期望最大化(Expectation-Maximum, EM)及固定间隔(Rauch- Tung-Striebel, RTS)平滑算法对退化状态估计、模型参数自适应更新, 以获取系统更精准的RUL;再者, 利用系统寿命偏差、执行器实时退化状态等构建Q-learning算法的目标函数, 在不断试错中对维护控制量做出最优调整, 获得最大的寿命延长奖励, 以实现舞台多轴同步系统健康的更有效维护.
1 基于RL的舞台多轴同步系统PdM框架构建
在实际舞台多轴同步系统中,PID算法作为广泛且有效应用的控制策略,已取得工程界的高度认

图1 基于RL的舞台多轴同步系统PdM框架
Fig.1 PdM architecture for stage multi-axis synchronous systems based on RL
本文与文献[
1)RL控制器取代了DMC控制器. RL的优势在于无需先验知识和模型, 而受文献[
2)不同层级以不同采样率分而治之工作. 在基于RL的舞台多轴同步系统健康自主维护PdM双层架构中, 根据控制层与维护层的属性与需求不同, 为兼顾系统控制性能和维护效率,分别为控制层、维护层设定较高、较低的采样率,尤其是基于RL的长周期维护层, 可为早期退化获得初始最优维护策略提供较充分的学习时长,为后期RL快速获得最优维护策略积累经验, 从而在确保维护实时性和节约计算资源的同时, 提升跟踪调节和自主维护性能.
3)退化模型参数可自适应更新.综合考虑退化数据缺失、传感器测量噪声、维护策略干预、退化过程时变等多源不确定性等因素,借鉴文献[
2 RUL的自适应预测
2.1 执行器退化过程
电机作为舞台系统的执行器, 在长期运转过程中, 因疲劳磨损、环境腐蚀、负载变化等影响, 会出现轴偏心、绝缘层老化、磁性退化、电刷磨损等现象,致使电机执行能力下降.考虑舞台多轴系统在运行过程中,退化数据严重缺失,测量噪声和误差无法避免,个体退化因系统结构、工作场景的差异,尤其是在线自主维护促使的退化过程演变,均会加剧执行器退化的时变和非线性特征.兼顾电机的退化属性和上述不确定因素,为建立更为精准的执行器退化模型, 采用基于Wiener过程的自适应退化建模方
(1) |
式中:表示时刻测量数据; 为执行器的退化值;为执行器的初始退化值, 通常取0;表示标准布朗运动;为扩散系数;, 表示与相互独立的随机测量误差; 是漂移系数,根据电机实际退化轨迹, 选用幂函数模型描述其非线性特征;表示时变参数集合.
2.2 实际退化状态估计与模型参数自适应更新
如何从
令表示监测时刻得到的执行器退化监测数据, 则为系统初始运行时刻至当前监测时刻的已有退化监测数据, 其真实退化状态为. 其离散形式的执行器退化模型可表示为
(2) |
式中:表示离散化步长;表示监测时刻的具体值;且是独立同分布的随机噪声序列, 故有.
由于退化模型对时间呈现非线性特征, 但对状态呈现线性特征, 故可采用Kalman滤波技术基于监测数据对真实退化状态进行估计. 定义隐含退化量滤波的期望和方差分别为和.
具体状态估计过程如下:
1)状态估计:
(3) |
(4) |
(5) |
(6) |
2)方差更新:
(7) |
由于退化过程的时变性, 固定的模型参数难以对其精确描述, 因此需对每一时刻模型参数进行更新. 由于状态估计中包含了模型未知参数, 导致极大似然估计算法不再适用, 故而采用对于缺失或隐含数据具有特殊优势的EM算法.
模型未知参数的自适应更新过程如下:
1)利用历史退化数据,得到模型初始参数;
2)利用对数似然函数对第步迭代的参数估计值求条件期望;
(8) |
3)最大化;
(9) |
迭代步骤2)和步骤3)直到满足收敛判据终止.
4)求解隐含变量的条件期望值:
通过RTS算法计算, , . 算法RTS流程和公式详见文献[
通过Kalman滤波、EM及RTS平滑等算法, 便可实现退化模型参数的自适应估计和更新, 减少退化数据缺失、个体差异、维护干预的影响, 提高退化建模的准确性, 确保所建模型能更好地契合真实的退化过程.
2.3 舞台多轴同步系统剩余寿命的自适应预测
考虑舞台多轴同步系统中多个执行器同时退化的复杂性, 本文先从单一执行器退化下舞台多轴同步系统的剩余寿命预测入手. 这里仍以文献[
(10) |
式中:表示各轴的实际位置输出量.
定义同步误差首次超出失效阈值的时刻即为多轴同步系统的失效时刻, 舞台多轴同步控制系统的寿命为:
(11) |
其中, inf为下确界算子.
退化量阈值定义为:
(12) |
则舞台多轴同步系统的剩余寿命为:
(13) |
基于退化模型
(14) |
式中:;.
可以看出, 由于时变退化过程的模型参数会在每一时刻实时更新为, 舞台多轴同步系统RUL也随之实现了自适应预测.
3 基于RL的舞台多轴同步系统健康自主维护策略
3.1 Q-learning算法
RL机理是通过与环境的交互进行试错来更新策略, 以逐渐接近最优策略. 常见的RL算法有Q-learning、Sarsa、Deep Q-Network(DQN)
Q-learning是一种基础的RL算法, 用于解决马尔可夫决策问题. 在Q-learning中, 智能体根据Q表进行动作选择, 并使用映射方式存储状态和动作之间的对应关系. 每个状态-动作对都有一个值,其中,表示时刻的状态, 表示时刻的动作. 算法开始时, Q表被初始化. 智能体通过随机选择动作并观察环境给予的奖励来更新Q表中的值. 当智能体再次遇到相同的状态时, 它会根据选择具有最高奖励的动作. 为了保持对新策略的探索, 智能体采用贪婪策略选择动作, 即以的概率选择Q值最大的动作, 而以概率随机选取动作, 其更新公式如下:
(15) |
式中:是取值范围为[0,1]的随机变量. 当动作被执行以后, 系统将从当前状态进入下一状态, 并收到来自环境的奖励. 此时, Q表中的映射对将按照
(16) |
式中:学习速率;折扣系数, 决定了未来收益的现值.
一般情况下奖励函数与状态和动作有关, 满足下式:
(17) |
式中:A, B分别为半正定矩阵.
在Q-learning算法中, 奖励函数的形式与系统当前状态和智能体采取的动作密切相关. 这个更新过程会不断重复, 直到智能体学会在每个状态下采取适当的策略, 并获得相对稳定的最优决策.
3.2 基于Q-learning算法的舞台多轴同步系统健康自主维护策略
Q-learning算法是基于无模型的强化学习方法,它通过不断更新Q值函数进行学习.在Q-learning中,奖励函数的设计直接影响到Q值函数的更新和学习效果.因此,根据需求设计一个合适的奖励函数,对于Q-learning算法的性能和收敛性非常重要.对于舞台多轴同步系统,由
因此, 基于Q-learning算法原理,构建舞台多轴同步系统维护策略的奖励函数为:
(18) |
式中既包含了当前执行器的退化状态, 也包含了剩余寿命偏差. , , 为半正定常数矩阵,奖励函数本质上为二次函数.不难看出要使奖励最大,需根据当前的退化状态, 寻求最佳的控制量,使剩余寿命偏差最小.
类似
(19) |
其状态动作价值函数函数为:
(20) |
函数的方程为:
(21) |
当
(22) |
(23) |
最优控制:
(24) |
依据
(25) |
控制动作的策略依据
3.3 基于Q-learning舞台多轴同步系统PdM算法流程与步骤
综合上述内容, 基于Q-learning舞台多轴系统PdM算法流程如

图2 基于Q-learning舞台多轴同步系统PdM算法流程图
Fig.2 Flowchart of PdM algorithm for stage multi-axis synchronous system based on Q-learning
4 仿真实验与结果分析
4.1 实验描述
为验证本文所提方法的有效性,以两轴舞台升降系统为案例.考虑升降舞台通常采用变频器和三相异步电机作为驱动装置,为简化建模过程,采用矢量变换法将变频器和异步电机等效为直流电
(26a) |
(26b) |
(26c) |
式中:为反电势系数; 为电机转子的电动惯量; 为定子绕组电阻; 为绕组等效电感;电磁转矩常数;为机电时间常数;为电磁时间常数;与文献[
PID控制层和RL维护层的采样时间分别取为和. 采用Ziegler-Nichols法整定得到内环PI控制器参数、, 并取位置耦合同步补偿器为,s表示复数域的自变量.假定在系统投运后电机才逐渐出现退化,其初始退化值, 模型参数初始值分别为、和扩散系数,随机噪声. 根据舞台安全技术标准,设置系统失效阈值为台面位置偏差不大于5 mm,即当台面位置偏差大于5 mm时, 系统性能不可接受,达到寿命终点.
Q-learning算法中超参数包括学习速率,折扣系数,贪婪搜索速率,分别设置为,,,奖励函数中的半正定矩阵S、R、P初始值分别设置为、、, 迭代次数.对比实验DMC的控制参数与文献[
4.2 实验实施与结果分析
4.2.1 基于退化参数自适应更新的舞台多轴同步系统RUL预测
假设在仿真运行初始时刻电机性能开始下降,

图3 位置同步误差
Fig.3 Position synchronization error
为减少退化过程的测量噪声以及维护介入、个体差异、环境等引起时变等因素影响, 随着退化数据不断累积,在每个监测点通过Kalman滤波和EM算法,可实时估计退化量并自适应更新

(a) 退化参数a

(b) 退化参数b

(c) 退化参数ση

(d) 退化参数σB
图4 退化参数自适应更新
Fig.4 Adaptive update of degradation parameters
根据

图5 系统剩余寿命预测分布
Fig.5 Distribution of system remaining useful life prediction
4.2.2 基于RL的舞台多轴同步系统自主维护策略
衡量一个RL算法的优劣通常有两个直观指标:收敛速度和累积奖励. 就Q-learning扮演舞台多轴系统自主维护策略的角色而言, 则需评价是否能以更快收敛速度, 得到最多累积奖励的控制策略, 并由实时维护获得更长的使用寿命. 采用3.2节的Q-learning维护策略,当收到环境返回的奖励时, 紧随着进入下一状态, 该过程不断反复直到算法完全收敛.

图6 2 000次迭代的累计平均运行奖励
Fig.6 Cumulative average running reward for 2 000 iterations
由
在无维护和3种有维护情形下,

图7 有/无维护作用下控制量对比曲线
Fig.7 Comparison of control variables with/without maintenance

图8 有/无维护作用下退化量对比曲线
Fig.8 Comparison of degradation variables processes with/without maintenance

图9 有/无维护作用下位置同步误差对比曲线
Fig.9 Comparison of position synchronization errors with/without maintenance
维护方法 | 系统寿命/h |
---|---|
无维护 | 833 |
文献[ | 919 |
恒值单采样率 | 935 |
恒值多采样率 | 967 |
5 结 论
针对单电机性能退化的舞台多轴同步控制系统,本文提出了一种基于强化学习预测维护架构的方法.通过舞台两轴同步系统仿真实验, 得到以下结论:
1)结合RL和舞台健康感知信息提出的舞台多轴系统PdM架构, 考虑控制层和维护层的不同需求,对其赋予不同采样率分而治之的工作方式,提高了系统维护效能;
2)考虑介入维护及多源不确定性的影响,基于Kalman滤波、EM和RTS等算法,通过对执行器时变退化模型参数的自适应更新,确保了舞台系统实时RUL预测的准确性;
3)基于系统剩余寿命偏差和执行器退化状态构建的RL算法目标函数,可通过不断试错,对维护控制量做出最优调整,规避了MPC参数设定依赖经验的弊端,获得了使用寿命更大延长的奖励.
实际工程中,舞台多轴同步系统面临的退化情况往往更加复杂多变,考虑多个执行器同时发生退化的情况更具挑战性和实际意义,也是本文下一步拟开展的主要研究工作之一.
参考文献
克里斯蒂安·弗莱米勒. 舞台机械控制系统的安全要求及轴控制技术的特点与应用[J]. 演艺科技, 2012(2):1-4. [百度学术]
CHRISTIAN F. Safety requirements for stage machinery control systems and the characteristics and applications of axis control technology[J]. Entertainment Technology,2012(2):1-4.(in Chinese). [百度学术]
智浩,王强,金艳苓,等.舞台机械技术、工艺、应用系列谈:舞台机械设备的多样性和发展趋势[J].演艺科技,2021(6):29-33. [百度学术]
ZHI H,WANG Q,JIN Y L,et al.Stage machinery technology,craft,application series talk: diversity and development trend of stage machinery and equipment[J].Entertainment Technology,2021(6):29-33.(in Chinese) [百度学术]
周东华,魏慕恒,司小胜.工业过程异常检测、寿命预测与维修决策的研究进展[J].自动化学报,2013,39(6):711-722. [百度学术]
ZHOU D H,WEI M H,SI X S. A survey on anomaly detection,life prediction and maintenance decision for industrial processes[J].Acta Automatica Sinica, 2013, 39(6): 711-722.(in Chinese) [百度学术]
YAN J H,MENG Y,LU L,et al.Industrial big data in an industry 4.0 environment:challenges,schemes,and applications for predictive maintenance[J].IEEE Access,2017,5:23484-23491. [百度学术]
SELCUK S. Predictive maintenance,its implementation and latest trends[J]. Proceedings of the Institution of Mechanical Engineers,Part B:Journal of Engineering Manufacture, 2017,231(9):1670-1679. [百度学术]
陆宁云,陈闯,姜斌,等.复杂系统维护策略最新研究进展:从视情维护到预测性维护[J].自动化学报,2021,47(1):1-17. [百度学术]
LU N Y,CHEN C,JIANG B,et al.Latest progress on maintenance strategy of complex system:from condition-based maintenance to predictive maintenance[J]. Acta Automatica Sinica,2021,47(1):1-17.(in Chinese) [百度学术]
SALAZAR J C,WEBER P,NEJJARI F,et al. System reliability aware Model Predictive Control framework[J].Reliability Engineering & System Safety,2017,167:663-672. [百度学术]
BOUGACHA O,VARNIER C,ZERHOUNI N.Review of post-prognostics decision-making in prognostics and health management[J].International Journal of Prognostics and Health Management,2021, 11(2): 1-31. [百度学术]
LANGERON Y,GRALL A,BARROS A.Actuator health prognosis for designing LQR control in feedback systems[J].Chemical Engineering Transactions (CET Journal),2013,33:979-984. [百度学术]
SANCHEZ H,ESCOBET T,PUIG V,et al.Health-aware model predictive control of wind turbines using fatigue prognosis[J].IFAC-PapersOnLine,2015,48(21):1363-1368. [百度学术]
LANGERON Y,GRALL A,BARROS A.A modeling framework for deteriorating control system and predictive maintenance of actuators[J].Reliability Engineering & System Safety,2015,140:22-36. [百度学术]
李炜,颜伟俊,毛海杰.多轴同步控制系统的寿命预测和延寿方法[J].控制与决策,2023,38(9): 2587-2596. [百度学术]
LI W,YAN W J,MAO H J.Research on life prediction and extension method of multi-axis synchronous control system[J].Control and Decision,2023,38(9): 2587-2596.(in Chinese) [百度学术]
申富媛,李炜,蒋栋年.四旋翼无人机寿命预测和自主维护方法[J].吉林大学学报(工学版),2023,53(3):841-852. [百度学术]
SHEN F Y,LI W,JIANG D N.Life prediction and self-maintenance method of quad-rotor unmanned aerial vehicle[J].Journal of Jilin University (Engineering and Technology Edition),2023,53(3): 841-852.(in Chinese) [百度学术]
SUTTON R S,BARTO A G.Reinforcement learning:an introduction[J].IEEE Transactions on Neural Networks, 1998, 9(5): 1054. [百度学术]
王龙, 黄锋.多智能体博弈、学习与控制[J].自动化学报,2023,49(3): 580-613. [百度学术]
WANG L,HUANG F.An interdisciplinary survey of multi-agent games,learning,and control[J].Acta Automatica Sinica,2023,49(3): 580-613.(in Chinese) [百度学术]
JHA M S,WEBER P,THEILLIOL D,et al.A reinforcement learning approach to health aware control strategy[C]//2019 27th Mediterranean Conference on Control and Automation (MED).July 1-4,2019,Akko,Israel:IEEE,2019:171-176. [百度学术]
李天梅,司小胜,刘翔,等.大数据下数模联动的随机退化设备剩余寿命预测技术[J].自动化学报,2022,48(9):2119-2141. [百度学术]
LI T M,SI X S,LIU X,et al. Data-model interactive remaining useful life prediction technologies for stochastic degrading devices with big data[J]. Acta Automatica Sinica,2022,48(9):2119-2141.(in Chinese) [百度学术]
KHAN S,YAIRI T.A review on the application of deep learning in system health management[J].Mechanical Systems and Signal Processing,2018,107: 241-265. [百度学术]
SI X S,REN Z Q,HU X X,et al.A novel degradation modeling and prognostic framework for closed-loop systems with degrading actuator[J].IEEE Transactions on Industrial Electronics,2020,67(11): 9635-9647. [百度学术]
郑建飞,胡昌华,司小胜,等.考虑不完全维护影响的随机退化设备剩余寿命预测[J].电子学报,2017,45(7):1740-1749. [百度学术]
ZHENG J F,HU C H,SI X S,et al.Remaining useful life prognostic for the stochastic degradation device subject to imperfect maintenance[J]. Acta Electronica Sinica,2017,45(7):1740-1749.(in Chinese) [百度学术]
叶宇豪,彭飞,黄允凯.多电机同步运动控制技术综述[J]. 电工技术学报,2021,36(14):2922-2935. [百度学术]
YE Y H,PENG F,HUANG Y K.Overview of multi-motor synchronous motion control technology[J].Transactions of China Electrotechnical Society,2021,36(14):2922-2935.(in Chinese) [百度学术]
路承功,魏智强,乔宏霞,等.基于Wiener随机过程地下腐蚀环境中钢筋混凝土耐久性寿命预测[J].湖南大学学报(自然科学版),2021,48(7):119-128. [百度学术]
LU C G,WEI Z Q,QIAO H X,et al.Prediction of durability life of reinforced concrete under underground corrosion environment based on Wiener random process[J]. Journal of Hunan University (Natural Sciences), 2021,48(7): 119-128.(in Chinese) [百度学术]