Average Sample-path Optimality for Continuous-time Markov Decision Processes in Polish Spaces

在线阅读 下载PDF 导出详情
摘要 在这份报纸,我们在波兰的空格为连续时间的Markov决定过程学习平均样品路径费用(ASPC)问题。就我们的知识而言,这份报纸是第一次尝试与波兰的状态和行动空格在连续时间的MDP上学习ASPC标准。相应转变率被允许无界,并且费用率可以有既不上面也不更低的界限。在一些温和假设下面,我们证明存在(0)-ASPC最佳的静止政策基于二不同approaches:one是optimality方程途径,其它是不平等接近的二optimality。
机构地区 不详
出版日期 2011年04月14日(中国期刊网平台首次上网日期,不代表论文的发表时间)