许青松
Xu Qingsong
本文将策略迭代-逐次逼近法改进以后直接应用到部分可观的马尔可夫决策规划问题中,得到一个新的逐次逼近算法。算法保证能求出一个ε-最优的平稳策略。
许青松.部分可观的马尔可夫决策规划折扣模型的解法[J].湖南大学学报:自然科学版,1995,22(5):