+高级检索
网刊加载中。。。

使用Chrome浏览器效果最佳,继续浏览,你可能不会看到最佳的展示效果,

确定继续浏览么?

复制成功,请在其他浏览器进行阅读

基于强化学习的舞台多轴同步系统预测维护策略研究  PDF

  • 李炜 1,2
  • 王洁莹 1
  • 毛海杰 1,2
1. 兰州理工大学 电气工程与信息工程学院, 甘肃 兰州 730050; 2. 甘肃省工业过程先进控制重点实验室,甘肃 兰州 730050

中图分类号: TP273

最近更新:2024-12-30

DOI: 10.16339/j.cnki.hdxbzkb.2024294

  • 全文
  • 图表
  • 参考文献
  • 作者
  • 出版信息
EN
目录contents

摘要

针对舞台多轴同步系统因执行器退化导致无法满足控制任务时限要求, 现有维护策略难以达优的问题, 提出一种基于强化学习的舞台多轴同步系统预测维护策略.首先将强化学习以串级方式引入, 构建具有寿命预测与自主维护能力, 能以不同采样率分而治之的控制架构;其次, 聚焦介入维护策略及多源不确定性对执行器退化过程的影响, 基于卡尔曼(Kalman)滤波、期望最大化和固定间隔平滑等算法, 通过对执行器退化状态的实时感知、估计及退化模型的自适应更新, 确保多轴同步系统剩余寿命预测精度;结合系统期望工作时限与剩余寿命预测的偏差、执行器实时退化状态等构建Q-learning算法的目标函数, 通过不断试错对维护控制量做出最优调整, 以获得最大的寿命延长奖励, 从而实现了舞台多轴同步系统智能优化维护. 通过舞台多轴同步系统仿真实验验证了所提方法的有效性, 提高了系统维护效能.

舞台造型的多层次变化决定了其展现效果及表现力, 而这种变化又依赖于舞台控制系统. 多轴同步控制因其具有更大负载驱动能力、高效灵活运动方式、可协调系统各轴间的运动等优势, 已广泛应用于舞台演绎领

1-2. 随着剧场演出频次的增加, 在长期运行过程中, 舞台系统中各种部件不可避免会受疲劳磨损、环境腐蚀、负载变化以及扰动等影响, 导致系统性能和健康状态逐渐退化, 进而出现安全隐患甚至引发安全事3. 由于舞台多轴同步系统的特殊性, 人与设备常常需要动态交互, 且有较为严格的工作时限要求, 因此, 通过适时适当的维护策略, 确保其安全可靠运行显得尤为重要.

近年来, 随着对重大装备安全性要求的提高和信息、计算等技术的迅猛发展, 预测性维护(predictive maintenance, PdM)作为一种新型的维护策略应运而

4-5. PdM利用系统剩余使用寿命(remaining useful life, RUL)信息, 通过实施更具前瞻性的维护策略, 在提升系统安全性的同时提高维护效率, 已在多个领域受到关6-8. 其中针对具有工作时限要求的控制系统, PdM研究则是基于系统RUL的实时预测信息, 主要借助于线性二次调节器(linear quadratic regulator, LQR9、模型预测控制(model predictive control, MPC10-11等控制策略, 在系统失效前通过在线参数调节等措施实施自主维护, 以延长其使用寿命. 其中MPC也因特有的鲁棒性和适应性更受青睐. 文献[12-13]分别针对升降舞台、四旋翼无人机等多轴系统的健康自主维护问题, 开展了初探性研究, 其基于系统RUL预测, 通过对动态矩阵控制(dynamic matrix control, DMC)中约束矩阵的调节, 减缓执行器退化, 有效地延长了系统的使用寿命. 目前基于MPC维护的调节方式均是围绕约束矩阵值调节展开, 主要包括固定值和自适应变值两种. 前者需人工反复试凑, 且缺少与退化状态关联;后者虽通过构造调整函数与退化状态关联, 但函数的参数依旧需要人工试凑. 因而这种依赖人工经验的维护方式, 势必难达最优.

随着人工智能技术的迅猛发展, 强化学习(reinforcement learning, RL)方法在解决大规模复杂决策问题方面展现出巨大的潜力. RL通过与未知环境的交互学习, 获取反馈信号并不断调整策略, 以逐步提高智能体的性

14-15. RL亦可处理连续状态和动作空间, 如控制问题中的连续控制变量. RL在描述动态函数方面的可处理性以及表征各种系统动态特征的灵活性, 使其能够在基于模型和无模型的环境中学习, 并与环境交互得到最优控制策略. 文献[16]针对单回路控制系统, 首次基于RL提出了一种健康感知的控制策略, 通过对系统真实退化下预测的RUL与期望的RUL做差, 利用RL试错学习获得最优控制策略, 有效延长了系统寿命. 因此, 如何将RL应用于舞台多轴同步系统的健康自主维护, 规避MPC维护方法对人工经验的依赖, 获得多回路耦合系统更有效的维护策略, 无疑对提高系统安全性是极有意义的.

要实现舞台多轴同步系统的健康PdM, 前提是根据部件退化数据准确预测系统的RUL. 目前有关独立设备或部件级设备的RUL预测方法已较为成熟, 根据建模方式不同, 寿命预测方法可分为基于机理模型的方法、基于数据驱动的方法以及二者相融合的方

12. 随着传感与数据采集技术的发展, 基于数据驱动的方法逐渐成为主流. 依据对数据的处理方式不同, 其又分为机器学习的方法和随机过程的方法等. 其中, 基于机器学习的RUL预测方法虽然能够获取具体的预测数值, 但需要大量的退化数据进行模型训练, 对于退化存在随机性、时变性及退化数据缺失的舞台多轴同步系统并不适用. 文献[17]对大数据背景下随机退化设备的RUL技术进行了系统的综述. 基于随机过程的方法关键是选择合适的随机模型, 其中Wiener过程因能描述非单调退化过程, 并可获得RUL预测的解析解等优点,成为建模方法的首18-22. 然而现存成果在退化建模时,尽管对退化过程的时变不确定性、传感器测量噪声影响、退化数据缺失等问题已有或多或少的考虑,但维护策略介入后对系统退化的影响尚未涉及,而且以独立设备和部件为多, 控制系统也以单回路为主.因此,考虑介入维护策略及多源不确定性的综合影响,如何基于Wiener过程, 通过对执行器退化过程精准建模, 提高舞台多轴同步系统RUL预测精度,是有效实现PdM的关键.

此外, 无论是单回路还是多回路系统,考虑到系统部件退化通常都会经历长期缓慢的变化过程, 而系统状态则因需要变化较快,因此,健康维护策略的施加频率也就无须与系统状态监测、控制的频率相同, 相反短周期监控与长周期维护干预不仅有利于节约计算与存储资源,而且对于系统控制本身和维护的时效性也更加符合实际情况.因此,针对舞台多轴同步系统,如何通过层次结构的区分和控制策略的选择,构建一个基于多采样率的健康感知反馈调节的智能体系架构,是实现预测性维护(PdM)的基础.

鉴于此,本文旨在针对舞台多轴同步系统的预测维护需求,开展如下创新性研究工作:

首先以串级方式将RL引入舞台多轴同步系统, 构建了在维护层与控制层, 能以不同采样率分而治之的智能PdM体系架构;其次, 考虑多源不确定及介入维护策略后对执行器退化模型的影响, 利用Wiener过程对其退化建模, 采用Kalman滤波、期望最大化(Expectation-Maximum, EM)及固定间隔(Rauch- Tung-Striebel, RTS)平滑算法对退化状态估计、模型参数自适应更新, 以获取系统更精准的RUL;再者, 利用系统寿命偏差、执行器实时退化状态等构建Q-learning算法的目标函数, 在不断试错中对维护控制量做出最优调整, 获得最大的寿命延长奖励, 以实现舞台多轴同步系统健康的更有效维护.

1 基于RL的舞台多轴同步系统PdM框架构建

在实际舞台多轴同步系统中,PID算法作为广泛且有效应用的控制策略,已取得工程界的高度认

12.并联方式下的偏差耦合控制因具有同步性能好、结构稳定可靠等优23,也是舞台同步系统常用的控制结构.因此,本文底层(控制层)依旧采用偏差耦合控制结构和PID控制器,仍以串级的思想,在其上层(维护层)增添一个PdM模块,如图1所示(仅考虑单轴退化的情形).

fig

图1  基于RL的舞台多轴同步系统PdM框架

Fig.1  PdM architecture for stage multi-axis synchronous systems based on RL

图1中:Nref为期望位置设定值;RLnPIDn分别表示第nRL控制器和第nPID控制器;TL为扰动输入;Nn为各轴位置的实际输出量;yk表示已有退化监测数据;dk表示真实退化状态;RULkRULk*分别为预测的系统使用寿命与期望的系统使用寿命;rk+n表示奖励函数.

本文与文献[

12]不同之处在于以下三点:

1)RL控制器取代了DMC控制器. RL的优势在于无需先验知识和模型, 而受文献[

16]启发将系统使用寿命误差(RUL*-RUL)植入目标函数,则能通过在线自主试错学习, 获取减小或消除系统使用寿命误差(RUL*-RUL)的最优控制策略,提高预测维护的精准性,使系统使用寿命得以有效延长,达到PdM的目的.RL维护策略的输入为RUL*RUL的差值,其中RUL*为期望的系统使用寿命, RUL为根据实际执行器退化状态、系统输出等感知信息预测的系统使用寿命.

2)不同层级以不同采样率分而治之工作. 在基于RL的舞台多轴同步系统健康自主维护PdM双层架构中, 根据控制层与维护层的属性与需求不同, 为兼顾系统控制性能和维护效率,分别为控制层、维护层设定较高、较低的采样率,尤其是基于RL的长周期维护层, 可为早期退化获得初始最优维护策略提供较充分的学习时长,为后期RL快速获得最优维护策略积累经验, 从而在确保维护实时性和节约计算资源的同时, 提升跟踪调节和自主维护性能.

3)退化模型参数可自适应更新.综合考虑退化数据缺失、传感器测量噪声、维护策略干预、退化过程时变等多源不确定性等因素,借鉴文献[

23]思想, 基于Kalman滤波、EM及RTS平滑算法,实现退化状态、Wiener过程退化模型参数的自适应估计和更新, 确保舞台多轴系统RUL预测精度.

2 RUL的自适应预测

2.1 执行器退化过程

电机作为舞台系统的执行器, 在长期运转过程中, 因疲劳磨损、环境腐蚀、负载变化等影响, 会出现轴偏心、绝缘层老化、磁性退化、电刷磨损等现象,致使电机执行能力下降.考虑舞台多轴系统在运行过程中,退化数据严重缺失,测量噪声和误差无法避免,个体退化因系统结构、工作场景的差异,尤其是在线自主维护促使的退化过程演变,均会加剧执行器退化的时变和非线性特征.兼顾电机的退化属性和上述不确定因素,为建立更为精准的执行器退化模型, 采用基于Wiener过程的自适应退化建模方

23无疑是可行的,其退化过程可描述为:

Y(t)=D(t)+eε(t)=D(0)+0 tμ(τ;θk)dτ+σBkB(t)+eε(t) (1)

式中:Y(t),t0表示t时刻测量数据; D(t)为执行器的退化值;D(0)为执行器的初始退化值, 通常取0;B(t)表示标准布朗运动;σBk为扩散系数;eε(t)~N(0,σηk2), 表示与B(t)相互独立的随机测量误差; μ(τ;θk)是漂移系数,根据电机实际退化轨迹, 选用幂函数模型μ(τ;θk)=akbktbk-1描述其非线性特征;θk=[ak,bk,σηk,σBk]表示时变参数集合.

2.2 实际退化状态估计与模型参数自适应更新

如何从式(1)中获取真实的退化信息D(t), 并确保退化模型参数的实时更新, 是准确预测舞台多轴同步系统RUL的基础.

yk=Y(tk)表示tk监测时刻得到的执行器退化监测数据, 则Y1:k=(y1,y2,,yk)为系统初始运行时刻至当前监测时刻tk的已有退化监测数据, 其真实退化状态为D1:k=(d1,d2,,dk). 其离散形式的执行器退化模型可表示为式(2)

dk=dk-1+ak(kΔt)bk-ak(k-1)Δtbk+vkyk=dk+eεk (2)

式中:Δt=tk-tk-1表示离散化步长;eεk表示tk监测时刻的eε具体值;vk=σBkBtk-Btk-1eεk是独立同分布的随机噪声序列, 故有vk~N0,σBk2tk-tk-1.

由于退化模型对时间呈现非线性特征, 但对状态呈现线性特征, 故可采用Kalman滤波技术基于监测数据Y1:k对真实退化状态D1:k进行估计. 定义隐含退化量dk滤波的期望和方差分别为d^kk=EdkY1:k,θkPkk=vardkY1:k,θk.

具体状态估计过程如下:

1)状态估计:

d^k|k-1=d^k-1|k-1+θkΔtb2-4ac (3)
Ρk|k-1=Ρk-1|k-1+σBk2Δt (4)
K(k)=Ρk|k-1(Ρk|k-1+σ2)-1 (5)
d^k|k=d^k|k-1+K(k)(yk-d^k|k-1) (6)

2)方差更新:

Ρk|k=1-K(k)Ρk|k-1 (7)

由于退化过程的时变性, 固定的模型参数难以对其精确描述, 因此需对每一时刻模型参数进行更新. 由于状态估计中包含了模型未知参数, 导致极大似然估计算法不再适用, 故而采用对于缺失或隐含数据具有特殊优势的EM算法.

模型未知参数θk的自适应更新过程如下:

1)利用历史退化数据,得到模型初始参数θ0

2)利用对数似然函数对第i步迭代的参数估计值θ^ki求条件期望;

𝓁θk,θ^ki=Eθ^kiLD1:k,Y1:kθkY1:k (8)

3)最大化𝓁(θk,θ^ki)

θ^ki+1=argmaxθki𝓁(θk,θ^ki)      (9)

迭代步骤2)和步骤3)直到满足收敛判据终止.

4)求解隐含变量的条件期望值:

通过RTS算法计算Ed0:k|Yk,θ^ki(dk)Ed0:k|Yk,θ^ki(dk2)Ed0:k|Yk,θ^ki(dkdk-1). 算法RTS流程和公式详见文献[

23].

通过Kalman滤波、EM及RTS平滑等算法, 便可实现退化模型参数的自适应估计和更新, 减少退化数据缺失、个体差异、维护干预的影响, 提高退化建模的准确性, 确保所建模型能更好地契合真实的退化过程.

2.3 舞台多轴同步系统剩余寿命的自适应预测

考虑舞台多轴同步系统中多个执行器同时退化的复杂性, 本文先从单一执行器退化下舞台多轴同步系统的剩余寿命预测入手. 这里仍以文献[

12]同步误差ω作为系统性能指标, 结合首达时间定义系统RUL. 对多轴同步控制系统的同步误差ω, 其数学描述如式(10)所示:

ω=max(Ni-Nj),i,j=1,2,,nij (10)

式中:Ni,Nj表示各轴的实际位置输出量.

定义同步误差{ω(t),t0}首次超出失效阈值ωth的时刻即为多轴同步系统的失效时刻, 舞台多轴同步控制系统的寿命为:

Tf=inf{D(t)|D(t)>Dth} (11)

其中, inf为下确界算子.

退化量阈值Dth定义为:

Dth=inf{D(t)|ω>ωmax} (12)

则舞台多轴同步系统的剩余寿命RUL为:

RUL(t)=inf{Tf|Tf>t,D(t)>Dth}-t (13)

基于退化模型公式(1), 可求解得到RUL的概率分布解析表达

23为:

fL(lk|θk,D1:k)Dth-λ(lk;θk)+lkμ(lk+tk;θk)-Pk|kω-λ(lk;θk)+d^k|kσBk2lkPk|k+σBk2lk×12πlk2(Pk|k+σBk2lk)exp-Dth-λ(lk;θk)-d^k|k22Pk|k+σBk2lk (14)

式中:λ(lk;θk)=ak(lk+tk)bk-aktkbkμ(lk+tk;θk)=akbk(lk+tk)b-1.

可以看出, 由于时变退化过程的模型参数会在每一时刻实时更新为θ^k, 舞台多轴同步系统RUL也随之实现了自适应预测.

3 基于RL的舞台多轴同步系统健康自主维护策略

3.1 Q-learning算法

RL机理是通过与环境的交互进行试错来更新策略, 以逐渐接近最优策略. 常见的RL算法有Q-learning、Sarsa、Deep Q-Network(DQN)

13. Q-learning算法简单易实现且收敛性好;Sarsa适用于连续动作空间但收敛性较差;DQN学习能力强但复杂且易陷入局部最优解. 综合考虑本文选用Q-learning算法.

Q-learning是一种基础的RL算法, 用于解决马尔可夫决策问题. 在Q-learning中, 智能体根据Q表进行动作选择, 并使用映射方式存储状态和动作之间的对应关系. 每个状态-动作对都有一个Qk(dk, uk)值,其中,dk表示tk时刻的状态, uk表示tk时刻的动作. 算法开始时, Q表被初始化. 智能体通过随机选择动作并观察环境给予的奖励来更新Q表中的值. 当智能体再次遇到相同的状态时, 它会根据Qk(dk, uk)选择具有最高奖励的动作. 为了保持对新策略的探索, 智能体采用贪婪策略选择动作, 即以ε的概率选择Q值最大的动作, 而以1-ε概率随机选取动作, 其更新公式如下:

uk=argmaxQ(dk,uk),1-εrandom(U),ε   (15)

式中:ε是取值范围为[0,1]的随机变量. 当动作uk被执行以后, 系统将从当前状态dk进入下一状态dk+1, 并收到来自环境的奖励. 此时, Q表中的映射对Qk+1(dk, uk)将按照式(16)的方式进行更新:

Qk+1(dk,uk)Qk(dk,uk)+αrk+1+γmaxu'Qkdk+1,u'-Qk(dk,uk) (16)

式中:学习速率α(0,1];折扣系数γ[0,1]γ决定了未来收益的现值.

一般情况下奖励函数与状态dk和动作uk有关, 满足下式:

rk+1dk,ukdkTAdk+ukTBuk        (17)

式中:AB分别为半正定矩阵.

在Q-learning算法中, 奖励函数的形式与系统当前状态和智能体采取的动作密切相关. 这个更新过程会不断重复, 直到智能体学会在每个状态下采取适当的策略, 并获得相对稳定的最优决策.

3.2 基于Q-learning算法的舞台多轴同步系统健康自主维护策略

Q-learning算法是基于无模型的强化学习方法,它通过不断更新Q值函数进行学习.在Q-learning中,奖励函数的设计直接影响到Q值函数的更新和学习效果.因此,根据需求设计一个合适的奖励函数,对于Q-learning算法的性能和收敛性非常重要.对于舞台多轴同步系统,由图1可知, Q-learning算法位于上层, 负责维护控制策略,其目的在于,当执行器退化导致系统剩余寿命RULk不满足工作时限预期RULk*时,通过自主学习获取最优策略,以尽可能延长系统使用寿命,得到最大回报. 由于退化过程缓慢,所以不必采用内环PID的快速更新频率,这样既可以节约计算与储存资源, 也给Q-learning算法寻优赢得了时间.为确保维护的实效性,维护层(外环)也采用相对控制层(内环)缓慢的更新频率.

因此, 基于Q-learning算法原理,构建舞台多轴同步系统维护策略的奖励函数rk+1为:

rk+1=-12dkTSdk+RULk*-RULkT×     PRULk*-RULk+ukTRuk=     ρdk,RULk,uk                   (18)

式中既包含了当前执行器的退化状态dk, 也包含了剩余寿命偏差RULk*-RULk. SRP为半正定常数矩阵,奖励函数本质上为二次函数.不难看出要使奖励rk+1最大,需根据当前的退化状态dk, 寻求最佳的控制量uk,使剩余寿命偏差最小.

类似式(16)引入折扣系数γ, 可以得到累计奖励Rhdk,RULk,uk由系统退化状态dkRULk构成, 且遵循控制策略uk=h(dk)

Rhdk,RULk,uk=i=kγi-kri+1=i=kγi-kρdi,RULi,hdi (19)

其状态动作价值函数Q函数为:

Qhdk,RULk,uk=ρdk,RULk,uk+             γRhdk+1,RULk+1,hdk+1 (20)

Q函数的Bellman方程为:

Qhdk,RULk,uk=ρdk,RULk,uk+             γQhdk+1,RULk+1,hdk+1 (21)

式(20)式(21)是控制策略uk的最优解uk*=h*(dk)的最大值Q*时,式(21)可表示为:

Q*(dk,RULk,uk)=maxuUQhdk,RULk,uk (22)
Q*(dk,uk)=ρ(dk,uk)+                    γmaxu'Q*fs(dk,uk),uk' (23)

最优控制h*

h*(dk)=argmaxuUQ*(dk,RULk,uk) (24)

依据式(16),基于Q-learning算法的舞台多轴同步系统健康维护策略的Q值可进一步表示为:

Qk+1dk,RULk,uk=Qkdk,RULk,uk+αkrk+1+γmaxu'Qkdk+1,RULk+1,u'updated estimate -Qkdk,ukcurrent estimate temporal difference  (25)

控制动作的策略依据式(15)进行选取.

3.3 基于Q-learning舞台多轴同步系统PdM算法流程与步骤

综合上述内容, 基于Q-learning舞台多轴系统PdM算法流程如图2所示.主要包括:执行器退化量的估计、退化模型参数的自适应更新、系统剩余寿命的实时预测以及基于Q-learning算法的自主维护. 特别是Q-learning算法的引入, 基于退化状态和寿命误差, 可在不断试错中对控制量做出最优调整, 并获得最大的寿命延长奖励. 周而复始, 直到达到维护目标或寿命终止.

fig

图2  基于Q-learning舞台多轴同步系统PdM算法流程图

Fig.2  Flowchart of PdM algorithm for stage multi-axis synchronous system based on Q-learning

4 仿真实验与结果分析

4.1 实验描述

为验证本文所提方法的有效性,以两轴舞台升降系统为案例.考虑升降舞台通常采用变频器和三相异步电机作为驱动装置,为简化建模过程,采用矢量变换法将变频器和异步电机等效为直流电

12,其传递函数为:

G(s)=1/CeTmTls2+Tms+1 (26a)
Tm=2JR/CeCm (26b)
T1=L/R (26c)

式中:Ce为反电势系数; J为电机转子的电动惯量; R为定子绕组电阻; L为绕组等效电感;Cm电磁转矩常数;Tm为机电时间常数;Tl为电磁时间常数;与文献[

12]相同,可得Tm=0.075 sTl=0.017 s.

PID控制层和RL维护层的采样时间分别取为TS1=0.01 sTS2=0.1 s. 采用Ziegler-Nichols法整定得到内环PI控制器参数kp=0.142kI=1.38, 并取位置耦合同步补偿器为0.142s+0.38/ss表示复数域的自变量.假定在系统投运后电机才逐渐出现退化,其初始退化值D(0)=0, 模型参数初始值分别为a0=0.985b0=3.186和扩散系数σB0=0.01,随机噪声ση0=0.003. 根据舞台安全技术标准,设置系统失效阈值ωth为台面位置偏差不大于5 mm,即当台面位置偏差大于5 mm时, 系统性能不可接受,达到寿命终点.

Q-learning算法中超参数包括学习速率α,折扣系数γ,贪婪搜索速率ε,分别设置为α=0.5γ=0.9ε=0.2,奖励函数中的半正定矩阵SRP初始值分别设置为0.110100, 迭代次数I=2 000.对比实验DMC的控制参数与文献[

12]相同,具体参数包括:预测步长为10,控制步长M=5,误差约束矩阵的初值设置为0.015, 控制约束矩阵的初值设置为0.04.

4.2 实验实施与结果分析

4.2.1 基于退化参数自适应更新的舞台多轴同步系统RUL预测

假设在仿真运行初始时刻电机性能开始下降, 图3为未施加健康维护策略时舞台多轴同步系统的位置同步误差.根据首达时间下失效定义,系统位置同步误差ω在833 h时刻超出失效阈值ωth=5 mm, 使用寿命未达到期望工作时限Tmission=900 h, 即系统在此之前失效.

fig

图3  位置同步误差

Fig.3  Position synchronization error

为减少退化过程的测量噪声以及维护介入、个体差异、环境等引起时变等因素影响, 随着退化数据不断累积,在每个监测点通过Kalman滤波和EM算法,可实时估计退化量并自适应更新式(1)中执行器的退化参数θk=[ak,bk,σηk,σBk], 如图4所示.可以看出,模型参数随电机退化监测数据的积累快速收敛,故可以此实现参数自适应实时更新, 确保退化模型的精准性,进而用于系统RUL预测.

fig

(a)  退化参数a

fig

(b)  退化参数b

fig

(c)  退化参数ση

fig

(d)  退化参数σB

图4  退化参数自适应更新

Fig.4  Adaptive update of degradation parameters

根据式(15)得到系统剩余寿命的概率密度分布PDF如图5所示. 为对比本文所提方法的优越性, 图中同时给出了文献[

12]的结果. 可以看出, 随着退化监测时间的不断递增, 基于本文所用模型的PDF更加尖锐, 说明退化过程模型参数被自适应更新后, 降低了舞台多轴系统RUL预测的不确定性, 提高了寿命预测的准确性.

fig

图5  系统剩余寿命预测分布

Fig.5  Distribution of system remaining useful life prediction

4.2.2 基于RL的舞台多轴同步系统自主维护策略

衡量一个RL算法的优劣通常有两个直观指标:收敛速度和累积奖励. 就Q-learning扮演舞台多轴系统自主维护策略的角色而言, 则需评价是否能以更快收敛速度, 得到最多累积奖励的控制策略, 并由实时维护获得更长的使用寿命. 采用3.2节的Q-learning维护策略,当收到环境返回的奖励Rhdk,RULk,uk时, 紧随着进入下一状态, 该过程不断反复直到算法完全收敛. 图6分别给出了控制层与维护层采用恒值多采样率(TS1=0.01 sTS2=0.1 s)和恒值单采样率(二者均取0.1 s)的维护策略收敛过程与平均奖励, 共运行2 000幕,每一幕的初始值保持不变.

fig

图6  2 000次迭代的累计平均运行奖励

Fig.6  Cumulative average running reward for 2 000 iterations

图6可知, 在0~300幕之间, 两种采样率调控方式所获得累计平均运行奖励大致相当;在300~ 1 500幕之间, 恒值单采样率的累计平均运行奖励总体表现为先下行后上升,在约1 500幕之后跳变增大且高于恒值多采样率,过程表现极不稳,收敛速度也较慢;而在此区间,恒值多采样率则呈现整体逐渐上升趋势,在1 340幕左右时累计平均运行奖励收敛到约-37,之后保持在较高水平且运行较为平稳, 收敛速度相对较快.表明本文针对控制层和维护层, 根据其属性和需求,采用恒值多采样率的分而治之调控方式,更适合RL维护策略的实施.

在无维护和3种有维护情形下,图7图8分别给出了控制量和电机退化量对比曲线.从图7可以看出, 施加维护策略后控制量明显减小,较文献[

12]的DMC维护策略,文中Q-learning的控制量在电机退化加重后减小更明显.进一步观察图8可知, 由于维护策略的作用,相应的电机执行压力均得到了有效缓解,尤其伴随Q-learning维护策略对控制量的更优减弱,电机退化得到了更为显著的缓解.

fig

图7  有/无维护作用下控制量对比曲线

Fig.7  Comparison of control variables with/without maintenance

fig

图8  有/无维护作用下退化量对比曲线

Fig.8  Comparison of degradation variables processes with/without maintenance

图9表1分别给出了舞台多轴同步系统的位置同步误差对比曲线和系统寿命值. 4种情形下, 超出位置同步误差失效阈值ωth=5 mm的时间分别是:无维护为833 h, 文献[

12]DMC维护策略为919 h, 本文Q-learning维护策略的恒值单采样率为935 h、恒值多采样率为967 h. 可以看出, 3种维护策略均能有效延长系统寿命. 进一步表明本文采用的智能维护策略通过Q-learning算法自主试错寻优, 无需人工试凑调整参数,对于舞台多轴系统退化的预测维护效果更佳,采用恒值多采样率的分而治之调控方式,更适合多轴系统的工程应用.

fig

图9  有/无维护作用下位置同步误差对比曲线

Fig.9  Comparison of position synchronization errors with/without maintenance

表1  不同维护策略下系统的寿命值
Tab.1  Lifetime values of the system under different maintenance strategies
维护方法系统寿命/h
无维护 833
文献[12 919
恒值单采样率 935
恒值多采样率 967

5 结 论

针对单电机性能退化的舞台多轴同步控制系统,本文提出了一种基于强化学习预测维护架构的方法.通过舞台两轴同步系统仿真实验, 得到以下结论:

1)结合RL和舞台健康感知信息提出的舞台多轴系统PdM架构, 考虑控制层和维护层的不同需求,对其赋予不同采样率分而治之的工作方式,提高了系统维护效能;

2)考虑介入维护及多源不确定性的影响,基于Kalman滤波、EM和RTS等算法,通过对执行器时变退化模型参数的自适应更新,确保了舞台系统实时RUL预测的准确性;

3)基于系统剩余寿命偏差和执行器退化状态构建的RL算法目标函数,可通过不断试错,对维护控制量做出最优调整,规避了MPC参数设定依赖经验的弊端,获得了使用寿命更大延长的奖励.

实际工程中,舞台多轴同步系统面临的退化情况往往更加复杂多变,考虑多个执行器同时发生退化的情况更具挑战性和实际意义,也是本文下一步拟开展的主要研究工作之一.

参考文献

1

克里斯蒂安·弗莱米勒. 舞台机械控制系统的安全要求及轴控制技术的特点与应用[J]. 演艺科技20122):1-4. [百度学术] 

CHRISTIAN F. Safety requirements for stage machinery control systems and the characteristics and applications of axis control technology[J]. Entertainment Technology20122):1-4(in Chinese). [百度学术] 

2

智浩王强金艳苓舞台机械技术、工艺、应用系列谈:舞台机械设备的多样性和发展趋势[J].演艺科技20216):29-33 [百度学术] 

ZHI HWANG QJIN Y Let alStage machinery technology,craft,application series talk: diversity and development trend of stage machinery and equipment[J].Entertainment Technology20216):29-33(in Chinese) [百度学术] 

3

周东华魏慕恒司小胜工业过程异常检测、寿命预测与维修决策的研究进展[J].自动化学报2013396):711-722 [百度学术] 

ZHOU D HWEI M HSI X S. A survey on anomaly detection,life prediction and maintenance decision for industrial processes[J].Acta Automatica Sinica2013396): 711-722(in Chinese) [百度学术] 

4

YAN J HMENG YLU Let alIndustrial big data in an industry 4.0 environment:challenges,schemes,and applications for predictive maintenance[J].IEEE Access2017523484-23491 [百度学术] 

5

SELCUK S. Predictive maintenance,its implementation and latest trends[J]. Proceedings of the Institution of Mechanical Engineers,Part B:Journal of Engineering Manufacture20172319):1670-1679 [百度学术] 

6

陆宁云陈闯姜斌复杂系统维护策略最新研究进展:从视情维护到预测性维护[J].自动化学报2021471):1-17 [百度学术] 

LU N YCHEN CJIANG Bet alLatest progress on maintenance strategy of complex system:from condition-based maintenance to predictive maintenance[J]. Acta Automatica Sinica2021471):1-17(in Chinese) [百度学术] 

7

SALAZAR J CWEBER PNEJJARI Fet al. System reliability aware Model Predictive Control framework[J].Reliability Engineering & System Safety2017167663-672 [百度学术] 

8

BOUGACHA OVARNIER CZERHOUNI NReview of post-prognostics decision-making in prognostics and health management[J].International Journal of Prognostics and Health Management2021112): 1-31 [百度学术] 

9

LANGERON YGRALL ABARROS AActuator health prognosis for designing LQR control in feedback systems[J].Chemical Engineering Transactions (CET Journal)201333979-984 [百度学术] 

10

SANCHEZ HESCOBET TPUIG Vet alHealth-aware model predictive control of wind turbines using fatigue prognosis[J].IFAC-PapersOnLine20154821):1363-1368 [百度学术] 

11

LANGERON YGRALL ABARROS AA modeling framework for deteriorating control system and predictive maintenance of actuators[J].Reliability Engineering & System Safety201514022-36 [百度学术] 

12

李炜颜伟俊毛海杰多轴同步控制系统的寿命预测和延寿方法[J].控制与决策2023389): 2587-2596 [百度学术] 

LI WYAN W JMAO H JResearch on life prediction and extension method of multi-axis synchronous control system[J].Control and Decision2023389): 2587-2596(in Chinese) [百度学术] 

13

申富媛李炜蒋栋年四旋翼无人机寿命预测和自主维护方法[J].吉林大学学报(工学版)2023533):841-852 [百度学术] 

SHEN F YLI WJIANG D NLife prediction and self-maintenance method of quad-rotor unmanned aerial vehicle[J].Journal of Jilin University (Engineering and Technology Edition)2023533): 841-852(in Chinese) [百度学术] 

14

SUTTON R SBARTO A GReinforcement learning:an introduction[J].IEEE Transactions on Neural Networks199895): 1054 [百度学术] 

15

王龙黄锋多智能体博弈、学习与控制[J].自动化学报2023493): 580-613 [百度学术] 

WANG LHUANG FAn interdisciplinary survey of multi-agent games,learning,and control[J].Acta Automatica Sinica2023493): 580-613(in Chinese) [百度学术] 

16

JHA M SWEBER PTHEILLIOL Det alA reinforcement learning approach to health aware control strategy[C]//2019 27th Mediterranean Conference on Control and Automation (MED)July 1-42019Akko,IsraelIEEE,2019:171-176 [百度学术] 

17

李天梅司小胜刘翔大数据下数模联动的随机退化设备剩余寿命预测技术[J].自动化学报2022489):2119-2141 [百度学术] 

LI T MSI X SLIU Xet al. Data-model interactive remaining useful life prediction technologies for stochastic degrading devices with big data[J]. Acta Automatica Sinica2022489):2119-2141(in Chinese) [百度学术] 

18

KHAN SYAIRI TA review on the application of deep learning in system health management[J].Mechanical Systems and Signal Processing2018107241-265 [百度学术] 

19

SI X SREN Z QHU X Xet alA novel degradation modeling and prognostic framework for closed-loop systems with degrading actuator[J].IEEE Transactions on Industrial Electronics20206711): 9635-9647 [百度学术] 

20

郑建飞胡昌华司小胜考虑不完全维护影响的随机退化设备剩余寿命预测[J].电子学报2017457):1740-1749 [百度学术] 

ZHENG J FHU C HSI X Set alRemaining useful life prognostic for the stochastic degradation device subject to imperfect maintenance[J]. Acta Electronica Sinica2017457):1740-1749(in Chinese) [百度学术] 

21

叶宇豪彭飞黄允凯多电机同步运动控制技术综述[J]. 电工技术学报20213614):2922-2935 [百度学术] 

YE Y HPENG FHUANG Y KOverview of multi-motor synchronous motion control technology[J].Transactions of China Electrotechnical Society20213614):2922-2935(in Chinese) [百度学术] 

22

路承功魏智强乔宏霞基于Wiener随机过程地下腐蚀环境中钢筋混凝土耐久性寿命预测[J].湖南大学学报(自然科学版)2021487):119-128 [百度学术] 

LU C GWEI Z QQIAO H Xet alPrediction of durability life of reinforced concrete under underground corrosion environment based on Wiener random process[J]. Journal of Hunan University (Natural Sciences)2021487): 119-128(in Chinese) [百度学术] 

23

司小胜胡昌华数据驱动的设备剩余寿命预测理论及应用[M].北京国防工业出版社201660-72 [百度学术] 

SI X SHU C HData-driven remaining useful life prediction theory and applications for equipment[M]. BeijingNational Defense Industry Press201660-72(in Chinese) [百度学术] 

作者稿件一经被我刊录用,如无特别声明,即视作同意授予我刊论文整体的全部复制传播的权利,包括但不限于复制权、发行权、信息网络传播权、广播权、表演权、翻译权、汇编权、改编权等著作使用权转让给我刊,我刊有权根据工作需要,允许合作的数据库、新媒体平台及其他数字平台进行数字传播和国际传播等。特此声明。
关闭