聽聽聽聽聽聽聽聽聽聽聽聽聽聽聽聽聽聽聽聽聽聽聽聽聽聽聽聽聽聽聽聽聽聽聽聽聽聽聽聽聽聽聽聽聽聽 首页聽|聽简介聽|聽编委会聽|聽征稿简则聽|聽英文刊聽|聽稿件流程聽|聽致读者聽|聽下载区聽|聽常见问题说明
Markov控制过程基于单个样本轨道的在线优化算法
On-line optimization algorithm for Markov control processes based on a single sample path
摘要点击聽聽194聽聽全文点击聽聽96聽聽投稿时间:2001-5-14聽聽最后修改时间:2001-11-13
查看全文聽聽查看/发表评论聽聽下载PDF阅读器
DOI编号聽聽
聽聽2002,19(6):865-871
中文关键词聽聽Markov控制过程聽聽Markov性能势聽聽随机平稳策略聽聽在线优化
英文关键词聽聽Markov control processes聽聽Markov performance potentials聽聽randomized stationary policies聽聽on-line optimization
基金项目聽聽国家自然科学基金(69974037); 国家高性能计算基金(00208)资助项目.
学科分类代码聽聽
作者单位E-mail
唐 昊中国科学技术大学 自动化系, 合肥230026xihs@ustc.edu.cn
奚宏生中国科学技术大学 自动化系, 合肥230026
殷保群中国科学技术大学 自动化系, 合肥230026
中文摘要
聽聽聽聽聽聽在Markov性能势理论基础上, 研究了Markov控制过程的性能优化算法. 不同于传统的基于计算的方法, 文中的算法是根据单个样本轨道的仿真来估计性能指标关于策略参数的梯度, 以寻找最优 (或次优 )随机平稳策略. 由于可根据不同实际系统的特征来选择适当的算法参数, 因此它能满足不同实际工程系统在线优化的需要. 最后简要分析了这些算法在一个无限长的样本轨道上以概率 1的收敛性, 并给出了一个三 状态受控Markov过程的数值实例.
英文摘要
聽聽聽聽聽聽Based on the theory of Markov performance potentials, this paper studies a performance optimization algorithm for Markov control processes. Different from the traditional computation-based approaches, this algorithm could estimate the gradients of performance with respect to the policy parameters by simulating a single sample path, and look for an optimal (or suboptimal) randomized stationary policy. The algorithm provided here could satisfy the needs of on-line optimization of many different real-world engineering systems, because we can select suitable parameters in the algorithm according to the properties of a real system. Finally, the convergence of the algorithm with probability one on an infinite sample path is considered, and a numerical example for a three-state controlled Markov chain is provided.
 
  聽聽聽聽聽聽聽聽聽 您是第253278位访问者  

主办单位:华南理工大学 中国科学院数学与系统科学研究院聽聽聽聽聽 单位地址:广州市天河区五山路381号

服务热线:020-87111464聽聽 传真:020-87111464聽聽 邮编:510640 聽聽Email: aukzllyy@scut.edu.cn
 

聽聽聽聽本系统由北京勤云科技发展有限公司设计