省经委基金
给出了观察过程状态数为可数时,部分可观的马尔可夫决策规划(POMDP)折扣模型的逼近法和算法,算法保证了能求到ε-最优的平稳策略和ε-最优的期望费用函数。
许青松.观察过程状态数为可数的POMDP的算法[J].湖南大学学报:自然科学版,1996,23(1):