摘要
为解决已有基于深度强化学习的边缘计算任务调度面临的动作空间探索度固定不变、样本效率低、内存需求量大、稳定性差等问题,更好地在计算资源相对有限的边缘计算系统中进行有效的任务调度,在改进深度强化学习模型D3DQN(Dueling Double DQN)的基础上,提出了自适应边缘计算任务调度方法D3DQN-CAA.在任务卸载决策时,将任务与处理器的对应关系看作一个多维背包问题,根据当前调度任务与计算节点的状态信息,为任务选择与其匹配度最高的计算节点进行任务处理;为提高评估网络的参数更新效率,降低过估计的影响,提出一种综合性Q值计算方法;为进一步加快神经网络的收敛速度,提出了一种自适应动作空间动态探索度调整策略;为减少系统所需的存储资源,提高样本效率,提出一种自适应轻量优先级回放机制.实验结果表明,和多种基准算法相比,D3DQN-CAA方法能够有效地降低深度强化学习网络的训练步数,能充分利用边缘计算资源提升任务处理的实时性,降低系统能耗.
近年来,随着智能终端设备和各种物联网设备数目的激增,数据量呈现指数级的增长.基于云计算技术的集中数据处理方式,已经不能满足时延敏感型任务的计算需
在机器学习算法中,深度学习具有很强的表达能力,强化学习则具有很强的环境感知能力.在边缘环境下解决任务调度问题时,面对复杂的动态变化的环境,需要同时具备以上两种能力.而深度强化学习算法则同时具有很强的表达能力和很强的环境感知能力,所以深度强化学习可以有效地处理边缘计算环境下的计算任务调度问题.
DQN(Deep Q-learning)算法是解决复杂问题中应用最广泛的深度强化学习算法之一,文献[
以上工作中,待处理任务常被视为一个不可分割的整体,同时在进行任务卸载决策时,基本上采用贪婪策略或者相似策略,不利于计算资源的充分利用;在进行经验回放时,抽样策略基本上为均匀抽样(随机抽样),样本效率较低,在参数复制之后的一段时间内,神经网络会出现波动,稳定性较差.另外,上述采用了各种适用于连续动作、状态空间调度算法的工作中,无论采用何种算法,在神经网络的训练过程中,进行神经网络参数更新时至少需要更新两个神经网络,另外整个算法框架下包含较多的相同结构的神经网络数目.在有限计算资源的边缘服务器上,同时更新多个神经网络和存储多个神经网络,会产生较高的系统计算资源开销.同时为了增加动作空间的探索度,上述工作中多采用添加噪声,例如高斯噪声、高斯白噪声、Ornstein-Uhlenbeck噪声等,但动作值均值难以衡量,无法保证经过噪声后动作值的有效性.
本文在分析上述工作中存在的动作空间探索度固定不变、样本效率低、内存需求量大、稳定性差等问题的基础上,通过改进Dueling Double DQN提出了边缘计算任务调度方法D3DQN-CAA.为了充分利用系统中的计算资源,将一个任务表示成由多个子任务构成的有向无环图,子任务的处理顺序由它们之间的依赖关系决定;在任务卸载决策上,将任务与处理器的对应关系看作一个多维背包问题,调度决策代理根据当前调度任务与处理器的状态信息,为任务选择与其匹配度最高的处理器进行任务处理;由目标网络的输出和评估网络的输出共同决定最终神经网络的输出,以进一步降低“过估计”的影响,提高算法的稳定性、减小参数复制后的波动幅度;以损失值为基础,动态调整任务卸载时的空间探索度,同时对学习经验进行优先级排序,将中间部分的经验存储在经验池中进行回放,以提高样本效率、降低内存需求.
1 系统模型
在本文的边缘计算系统中,存在一组边缘计算节点、一组终端设备和一个决策代理.代理通过无线网络收集终端设备提交的任务信息和计算节点信息并进行任务卸载决策.若卸载任务,则将任务数据上传至边缘计算节点进行处理,并将处理结果返回至终端设备;若本地处理则,在终端设备上处理任务.具体边缘计算系统框架如

图1 边缘计算系统框架
Fig.1 The framework of edge computing system
1.1 任务模型
为了充分利用系统中的计算资源,将一个任务表示成由多个子任务构成的有向无环图DAG,如

图2 任务内部依赖关系
Fig.2 Job internal dependencies
各子任务被处理之前,必须确保不存在未被处理的前趋子任务.每个子任务都包含相同属性:所需计算资源、内存大小、存储空间大小等.例如第i个任务的第j个子任务可表示为:
1.2 边缘计算节点和终端设备模型
设定在边缘计算系统中存在一个或多个边缘计算节点和终端设备,每个边缘计算节点的计算资源总量、储存资源总量都是相同的,每个终端设备的资源总量也是相同的,边缘计算节点和终端设备的索引分别表示为:
边缘计算节点和终端设备具体属性表示为:
式中:C、M、D表示各项资源的可用量;Cc、Mc、Dc表示各项资源的总量.当任务在节点i或终端j上处理时,若可用量大于等于任务请求的计算资源量,则从可用量中分配任务所需的各项资源给任务,直到任务处理完成,再将所分配的资源归还计算节点;而当可用量小于任务请求的计算资源量时任务将重新进行调度决策.一种特殊情况是,当边缘计算节点或终端设备发生故障时,其可用量可以视作0.
1.3 任务调度优化模型
1.3.1 传输率
当任务被卸载到边缘计算节点进行处理时,任务相关数据将通过无线网络上传至计算节点.传输时延受任务上传数据量和信道状态影响.在实际传输过程中,上传数据量由实际任务确定,而信道状态服从衰落模型,即信道状态随时变化.根据香农定律,信道数据传输率可表示为:
(1) |
式中:BD为带宽;noise为高斯白噪声;Nakagami-
(2) |
式中:Pr为平均功率;Γ(m)为伽马函数;m为衰落系数.m=1时,
1.3.2 计算时延
经代理给出任务卸载决策后,将任务调度至相应计算节点上进行处理,而任务的计算时延,由任务的计算量CPUtask和相应计算节点的计算能力CPUnode决定,计算公式如下:
(3) |
1.3.3 传输时延
当待处理任务被调度至边缘端进行处理时,该任务的处理时延由计算时延和传输时延组成.传输时延计算式为:
(4) |
式中:Datatask为任务卸载至边缘端时,需要上传的数据总量;Tr表示当前信道数据传输率.
1.3.4 能耗
一个任务从开始处理到处理完成,总能耗由传输能耗和计算能耗组成.传输能耗的决定因素有单位时间的传输能耗、任务传输时延,计算公式如下:
(5) |
计算能耗的决定因素有单位时间的计算能耗、任务计算时延,计算公式如下:
(6) |
处理一个任务的总能耗可表示为:
(7) |
1.3.5 累计加权开销
调度策略性能的综合评价指标为长期加权开销Cost,即计算系统的计算时延、传输时延、能耗的加权和.整体加权开销表示为:
(8) |
(9) |
式中:α、β、γ分别为计算时延、传输时延和能耗的权重,值越大表示对该部分开销越重视且α+β+γ=1;Costi表示第i次迭代的开销;A表示每次迭代的任务数目;B表示每个任务包含的子任务数目.
2 调度策略
在进行边缘计算下任务调度时,将任务调度问题视为一个多维背包问题来求解.每个计算节点看作一个背包,每个任务是具有价值Costtaskij的物品,问题的最优解求解过程可转化为如何为任务选择匹配度最高的背包以获得最小累计加权开销.本文先由神经网络为任务输出其与每个计算节点的适配度,再根据输出结果按照一定的选择策略进行具体计算节点选择,从而充分利用计算节点的计算资源,实现计算任务和计算节点的较好匹配.
2.1 传统基于D3DQN的边缘计算任务调度算法框架
传统基于D3DQN的边缘计算任务调度算法基本框架如

图3 基于D3DQN的边缘计算任务调度算法基本框架
Fig.3 The framework of job scheduling in edge computing algorithm based on D3DQN
(10) |
但V和A值的波动使得这两值不能唯一确定Q值,例如Q值为10时,V和A的值可能为4、6或者6、4,这不利于神经网络的更新,所以对
(11) |
2.2 D3DQN-CAA边缘计算任务调度框架
为了降低“过估计”的影响,同时为了增加对变化环境的感知能力,本文在D3DQN算法框架的基础上进行边缘计算任务调度算法设计.在传统D3DQN算法中,损失值由目标网络和评估网络输出的差值组成,而目标网络参数的延迟更新会导致参数复制后两个网络之间输出差异过大,从而使神经网络出现波动,影响神经网络的稳定性;又采用ε-greedy策略进行卸载决策时,动作空间的探索度固定不变不利于神经网络的收敛;另外,在训练初期,利用传统经验回放机制抽取经验时可能会出现因经验数目较少而导致某些经验被重复抽取,使得神经网络学习效率低下的问题,且随机抽取的抽样策略会造成样本效率较低.为提高神经网络的收敛速度、稳定性以及进一步降低“过估计”的影响,在以上D3DQN算法框架的基础上,提出一种综合性Q值计算方法CQC,根据上次迭代损失值衡量目标网络和评估网络输出在最终输出中的占比,使得整个学习过程的输出由目标网络输出为主逐渐转变为以评估网络输出为主;为了增加动作空间探索度和进一步提高算法稳定性,设计了一种能够自适应调整动作空间探索度的动作选择策略AGP,主要基于近几次迭代的损失值均值对卸载动作进行选择,以自适应地调整动作空间的探索度;为提高样本效率和适应资源有限的边缘计算系统,设计了自适应轻量优先级回放机制ALPR,在每次迭代中基于损失值对学习经验进行优先级排序,再抽取中间部分的学习经验存储至经验池,达到指定回放周期数时进行经验回放,以确保回放经验的唯一性同时提高样本效率.将以上方法和传统D3DQN算法框架进行融合后,得到

图4 D3DQN-CAA基本框架
Fig.4 The basic framework of D3DQN-CAA
2.3 优化策略
2.3.1 综合性Q值计算方法
在传统DQN算法中,根据环境状态信息输出所有可能卸载动作的Q值,其大小表示了卸载动作被选择的概率大小.然后选择其中Q值最大值所对应的卸载动作,作为当前待处理任务的调度决策.但在神经网络训练初期,选择最大Q值会导致神经网络在进行参数更新时实际Q值将向着比真实Q值大的方向更新,从而引起“过估计”问题.为了降低“过估计”的影响,文献[
(12) |
式中:TNet、ENet分别为目标网络和评估网络;OT、OE分别为目标网络和评估网络的输出;Loss为上一次迭代的损失;O为当次迭代中神经网络的最终输出.损失值可以反映神经网络的学习程度,损失值越大说明神经网络距离收敛越远,越难以对当前环境状态做出准确评估,受“过估计”影响越大;反之距离收敛越近,受“过估计”影响越小.该方法的工作原理及工作过程如

图5 CQC工作原理及工作过程
Fig.5 Working principle and process of CQC
2.3.2 自适应动作空间动态探索度调整策略
为了增加动作空间的探索度,已有的工作常常在动作选择上采用ε-greedy策
(13) |
式中:rd为随机数生成函数,用于生成[0,1]范围内的随机数;F值为True,则为当前待处理任务选择非最大值对应的卸载动作,为False,则选择最大值对应的卸载动作.

图6 AGP工作原理及工作过程
Fig.6 Working principle and process of AGP
2.3.3 自适应轻量优先级回放机制
随着神经网络状态空间维度的增加,需要更多的学习样本才能使神经网络达到满意的效果.但实际样本的数量往往是有限的,这时就需要考虑如何提高有限数量样本效率.经验回放机制不仅可以解决学习样本效率低的问题,还能打破数据关联性,常常配合DQN算法一起解决复杂高维问题.然而,在有限计算资源的边缘环境下,传统经验回放机制保存所有历史经验的做法会消耗大量的存储资源,且从历史经验中随机抽取一定数目的样本进行回放不能有效利用更高效的样本.为了提高样本效率,更好地适应资源有限的边缘计算系统下的任务调度,本文提出一种对边缘计算环境更加友好、更注重高效样本的自适应轻量优先级回放机制ALPR.
最近的学习经验才最有利于神经网络的学习,与其关联性最大,同时为确保回放经验的唯一性,本文回放机制ALPR在经验池中存储最近m次迭代中被抽取的学习经验.该机制的工作原理及工作过程如

图7 ALPR工作原理及工作过程
Fig.7 Working principle and process of ALPR
3 处理过程
系统整体处理流程如

图8 系统处理流程
Fig.8 System processing flow
3.1 环境状态信息及感知
边缘计算系统的环境状态信息可以由一组与计算任务、计算节点、无线网络状况等相关的参数组成.本文的环境状态信息由计算任务数据大小、所需计算资源数、所需存储资源数和所有计算节点可用计算资源数、可用存储资源数等信息组成,即
式中:statei表示计算任务与第i个计算节点的状态信息;分别为计算任务的数据大小、所需计算资源数、所需存储资源数;分别为计算节点可用计算资源数、可用存储资源数.
在处理终端设备发来的调度请求时,代理需要综合考虑当前待处理任务和所有计算节点的状态信息,以做出当前最优的调度决策.向下,代理接收终端设备发送的调度请求中包含待处理任务的状态信息与终端设备的状态信息;向上,代理向边缘服务器请求所有边缘计算节点的状态信息.代理在获取以上所需的环境状态信息后即可开始调度决策.
3.2 最终输出计算
代理获得环境状态进行正规化后即可作为神经网络的输入.在CQC方法中,需要同时获得评估网络和目标网络的输出,以计算神经网络的最终输出.因此,环境状态同时作为评估网络和目标网络的输入,得到各自的输出后,通过CQC方法获得最终输出,即
(14) |
式中:Output1、Output2分别为评估网络和目标网络基于当前环境状态获得的输出.
3.3 动作与动作选择
本文调度算法将依据环境状态信息获得当前待处理任务与各个计算节点的适配度,并作为卸载决策的依据,决定将任务放置在何处进行处理,即进行动作选择.通过神经网络和CQC方法后,获得任务与每个计算节点的适配度,并按照AGP机制选择计算节点以承载计算任务.
3.4 损失函数、损失计算及存储、回放学习经验
本文将任务调度问题视为多维背包问题,每次调度时选择与任务匹配度最高的计算节点进行任务处理.因此,损失函数可使用在分类器中常用的损失函数——交叉熵损失函数,具体计算如下:
(15) |
式中:output为评估网络的输出;action为动作选择.ALPR机制基于损失值对当前迭代的所有学习样本进行排序,并通过ALPR机制的存储经验功能将位于中间部分的学习样本存储在经验池中.当迭代次数满足特定条件时,通过ALPR机制中的经验回放功能取出经验池中学习经验并回放,即:
(16) |
(17) |
式中:epi表示学习经验;p表示经验池.通过
3.5 参数更新
获得学习样本的损失值后,计算梯度grad:
(18) |
式中:gradient为梯度计算函数;lossi为第i个学习样本的损失值.梯度值和学习率一起在特定的优化器中用于参数θ的更新,具体计算如下:
(19) |
式中:Optimizer为优化器;gradi为第i个学习样本的梯度;lr为学习率;为神经网络参数.
3.6 算法实现
通过以上处理过程,可以实现任务的最优调度决策,达到降低系统开销、提升任务处理实时性、降低系统能耗的目的.具体算法实现如算法1所示.
算法1:基于改进D3DQN的自适应边缘计算任务调度
输入:环境状态信息
输出:卸载决策
1:初始化经验池ALPR-P、AGP中的损失值AGP-L、CQC中的损失值CQC-L
2:for iteration=1 to Iteration do
3: if iteration/N1==0 then
4: 复制评估网络的参数到目标网络
5: end if
6: if iteration /N2==0 then
7: 回放ALPR-P中的学习样本
8: end if
9: 正规化输入
10:获得评估网络和目标网络的输出P1、P2
11:计算最终输出logits = CQC(P1, P2, CQC-L)
12:基于logits生成卸载动作action:
13:if random() < AGP(AGP-L) then
14: 随机卸载动作
15:else
16: 最大Q值对应卸载动作
17:end if
18:计算损失值,赋值给CQC-L后存储至AGP-L中
19:if iteration/N3==0 then
20: 计算AGP-L的均值并替换AGP中的均值,清空AGP-L
21:end if
22:对学习经验进行优先级排序,然后存储中间部分在ALPR-P中
23:更新评估网络参数
24:end for
4 仿真实验
为了验证本文所提出D3DQN-CAA任务调度算法可行性和有效性,主要从奖励值、能耗和累计加权开销几个方面和已有较具代表性的DQ
4.1 实验设置
在仿真实验中,每个边缘计算节点的配置为16单位CPU、16单位内存,每个终端设备的配置为4单位CPU、4单位内存.为模拟在一个时间片内,处理来自不同终端设备的计算任务,每次迭代使用5个样本,每个样本(任务)中有10个存在依赖关系的子样本(子任务),设置多个边缘计算节点和终端设备,以模拟一个多边缘节点、多终端设备且同一时间片内终端设备只生成一个计算任务的边缘计算场景.每200次迭代后将评估网络的参数复制到目标网络 (N1=200),每50次迭代进行经验回放(N2=50),每100次迭代更新AGP机制中的损失值均值(N3=100).
算法DQN、D3DQN和D3DQN-CAA的神经网络设置如
算法 | 评估网络设置 | 目标网络设置 |
---|---|---|
DQN | 隐藏层为全连接层,激活函数为Relu,输出层无激活函数 | 无目标网络 |
D3DQN | 隐藏层为全连接层,激活函数为Relu,输出层无激活函数 | 同目标网络 |
D3DQN-CAA | 隐藏层为全连接层,激活函数为Relu,输出层无激活函数 | 同目标网络 |
4.2 实验结果与分析
4.2.1 学习率选取分析
对于神经网络来讲,学习率的取值将在很大程度上影响模型的性能,所以在进行其他实验之前应当确定一个较为合理的学习率.

图9 不同学习率的损失值曲线
Fig.9 Curve of loss value with different learning rates
4.2.2 损失值对比
为验证各项机制的作用和对比不同机器学习算法之间的收敛情况,下面在D3DQN-CAA、DQN、D3DQN之间进行损失值对比实验.

图10 损失值曲线对比
Fig.10 Comparison of loss value curve
4.2.3 累计奖励对比
为反映算法对任务调度和处理效率,以奖励值进行衡量,本文的奖励值赋值规则为任务正常被调度和处理赋值为0,否则赋值为-1.D3DQN-CAA和基准算法的累计奖励值对比结果如

图11 累计奖励对比
Fig.11 Comparison of cumulative reward
4.2.4 能耗及加权开销对比
运营商在提供服务时,收益的影响因素当中能耗是最关注的一个,D3DQN-CAA和基准算法的累计能耗对比如

图12 累计能耗对比
Fig.12 Comparison of accumulated energy consumption
本文D3DQN-CAA算法和基准算法的综合性能对比结果如

图13 累计加权开销对比
Fig.13 Comparison of cumulative weighted cost
通过以上实验分析可知,D3DQN-CAA算法能够有效地降低深度强化学习网络的训练步数,能充分利用计算资源降低系统时延和能耗的累计加权开销,提升任务处理的实时性,降低系统能耗.
5 结 论
为解决已有边缘计算环境下深度强化学习算法存在的动作空间探索度固定不变、样本效率低、内存需求量大、稳定性差等问题,本文在改进深度强化学习模型Dueling Double DQN的基础上,提出了一种自适应的边缘计算任务调度算法.为了加快模型收敛速度和增加模型收敛后的稳定性,引入了综合性Q值计算方法;为了增加动作空间探索度和进一步提高算法稳定性,提出了自适应动作空间动态探索度调整策略;为了提高样本效率和适应资源有限的边缘计算系统,使用了自适应轻量优先级回放机制.结合以上优化机制,设计并实现了最终的任务调度算法.实验结果表明,本文边缘计算任务调度算法,能够有效地降低深度强化学习网络的训练步数,可以充分利用边缘计算资源,降低系统时延和能耗的累计加权开销,提升任务处理的实时性,降低系统能耗.
参考文献
周悦芝, 张迪.近端云计算:后云计算时代的机遇与挑战[J].计算机学报, 2019, 42(4): 677-700. [百度学术]
ZHOU Y Z,ZHANG D.Near-end cloud computing:opportunities and challenges in the post-cloud computing era[J].Chinese Journal of Computers,2019,42(4):677-700.(in Chinese) [百度学术]
WANG F X,ZHANG M,WANG X X,et al.Deep learning for edge computing applications:a state-of-the-art survey[J].IEEE Access,2020,8:58322-58336. [百度学术]
SHI W S,CAO J,ZHANG Q,et al.Edge computing:vision and challenges[J].IEEE Internet of Things Journal,2016,3(5):637-646. [百度学术]
WANG X F,HAN Y W,LEUNG V C M,et al.Convergence of edge computing and deep learning:a comprehensive survey[J].IEEE Communications Surveys & Tutorials,2020,22(2):869-904. [百度学术]
卢海峰, 顾春华, 罗飞, 等.基于深度强化学习的移动边缘计算任务卸载研究[J].计算机研究与发展, 2020, 57(7): 1539-1554. [百度学术]
LU H F,GU C H,LUO F,et al.Research on task offloading based on deep reinforcement learning in mobile edge computing[J].Journal of Computer Research and Development,2020,57(7):1539-1554.(in Chinese) [百度学术]
张子迎,陈云飞,王宇华,等.基于启发式深度Q学习的多机器人任务分配算法[J].哈尔滨工程大学学报,2022,43(6):857-864. [百度学术]
ZHANG Z Y,CHEN Y F,WANG Y H,et al.Multi-robot task allocation algorithm b Multirobot task allocation algorithm based on heuristically accelerated deep Q network[J].Journal of Harbin Engineering University,2022,43(6):857-864.(in Chinese) [百度学术]
喻鹏,张俊也,李文璟,等.移动边缘网络中基于双深度Q学习的高能效资源分配方法[J].通信学报,2020,41(12):148-161. [百度学术]
YU P, ZHANG J Y, LI W J,et al. Energy-efficient resource allocation method in mobile edge network based on double deep Q-learning[J].Journal on Communications,2020,41(12):148-161.(in Chinese) [百度学术]
ZHU A Q,GUO S T,MA M F,et al.Computation offloading for workflow in mobile edge computing based on deep Q-learning[C]//2019 28th Wireless and Optical Communications Conference (WOCC).Beijing,China: IEEE,2019:1-5. [百度学术]
TANG M,WONG V W S.Deep reinforcement learning for task offloading in mobile edge computing systems[J].IEEE Transactions on Mobile Computing,2022,21(6):1985-1997. [百度学术]
HAN B A,YANG J J.Research on adaptive job shop scheduling problems based on dueling double DQN[J].IEEE Access,2020,8:186474-186495. [百度学术]
XIONG X,ZHENG K,LEI L,et al.Resource allocation based on deep reinforcement learning in IoT edge computing[J].IEEE Journal on Selected Areas in Communications,2020,38(6):1133-1146. [百度学术]
ZOU J F,HAO T B,YU C,et al.A3C-DO:a regional resource scheduling framework based on deep reinforcement learning in edge scenario[J].IEEE Transactions on Computers,2021, 70(2): 228-239. [百度学术]
QI F,ZHUO L,XIN C.Deep reinforcement learning based task scheduling in edge computing networks[C]//2020 IEEE/CIC International Conference on Communications in China (ICCC).Chongqing,China: IEEE,2020:835-840. [百度学术]
NATH S,WU J X.Deep reinforcement learning for dynamic computation offloading and resource allocation in cache-assisted mobile edge computing systems[J].Intelligent and Converged Networks,2020,1(2):181-198. [百度学术]
KE H C,WANG J,DENG L Y,et al.Deep reinforcement learning-based adaptive computation offloading for MEC in heterogeneous vehicular networks[J].IEEE Transactions on Vehicular Technology,2020,69(7):7916-7929. [百度学术]
NATH S, WU J X. Dynamic computation offloading and resource allocation for multi-user mobile edge computing[C]//GLOBECOM 2020—2020 IEEE Global Communications Conference.Taipei,China: IEEE,2020:1-6. [百度学术]
江未来,吴俊,王耀南.基于元强化学习的无人机自主避障与目标追踪[J].湖南大学学报(自然科学版),2022,49(6):101-109. [百度学术]
JIANG W L,WU J,WANG Y N.Autonomous obstacle avoidance and target tracking of UAV based on meta-reinforcement learning[J].Journal of Hunan University (Natural Sciences),2022, 49(6):101-109.(in Chinese) [百度学术]
陈卓,姜伟豪,杜军威.基于策略记忆的深度强化学习序列推荐算法研究[J].湖南大学学报(自然科学版),2022,49(8):208-216. [百度学术]
CHEN Z,JIANG W H,DU J W.Research on deep reinforcement learning sequential recommendation algorithm based on policy memory[J].Journal of Hunan University (Natural Sciences),2022,49(8):208-216.(in Chinese) [百度学术]
VAN HASSELT H,GUEZ A,SILVER D.Deep reinforcement learning with double Q-learning[J].Proceedings of the AAAI Conference on Artificial Intelligence,2016,30(1):129-144. [百度学术]
MNIH V,KAVUKCUOGLU K,SILVER D,et al.Human-level control through deep reinforcement learning[J].Nature,2015,518(7540):529-533. [百度学术]
LI F C, HU B. DeepJS:job scheduling based on deep reinforcement learning in cloud data center[C]//Proceedings of the 2019 4th International Conference on Big Data and Computing -ICBDC 2019.May 10-12,2019.Guangzhou,China: ACM,2019:48-53. [百度学术]
ARABNEJAD H,BARBOSA J G.List scheduling algorithm for heterogeneous systems by an optimistic cost table[J].IEEE Transactions on Parallel and Distributed Systems,2014,25(3):682-694. [百度学术]
ALIBABA.(n.d.). Alibaba/clusterdata. 2017, https://github.com/alibaba/clusterdata/tree/master/cluster-trace-v2017. [百度学术]