ADP算法中AC网络的更新方式
2021/8/10 17:05:34
本文主要是介绍ADP算法中AC网络的更新方式,对大家解决编程问题具有一定的参考价值,需要的程序猿们随着小编来一起学习吧!
以离散时间系统为例,对自适应动态规划(Adaptive Dynamic Programming,ADP)中Action Network和Critic Network两个网络的更新方式进行说明。
一、系统定义
1.状态方程 state equation
其中数学公式: $ U $是控制指令,数学公式: $ F $是关于状态和控制的动力方程。
2.代价函数 cost function
其中数学公式: $ \psi $为效用函数。对公式2进重写让其从时间k开始
可以对数学公式: $ {J_k} $进行一个拆分
3.定义costate vector
定义在时间k的costate vector
4.最优的必要条件
计算
结合公式(6)和(7)可以得出
结合公式(4)和(5)可以对costate vector进行重写
所以可以得到数学公式: $ \lambda_k $和数学公式: $ \lambda_{k+1} $之间的关系式
公式(1)(8)和(10)必须同时求解,并配合适当的边界条件以求得最优控制的综合。
二、网络的训练
基于AC的ADP算法拥有两个网络分别是Action网络和Critic网络,Action网络主要的作用是根据状态信息生成控制指令,Critic网络的作用是生成costate vector用于调整两个网络的权重。
1.Action 网络的更新流程
第一步:输入状态数学公式: $ X_k $到Action 网络得到数学公式: $ {U_k} $;
第二步:系统模型按照已知的数学公式: $ X_k $和数学公式: $ {U_a} $根据公式(1)得到数学公式: $ X_{k+1} $
第三步:将数学公式: $ X_{k+1} $输入进Critic网络得到数学公式: $ \lambda_{k+1} $
第四步:使用数学公式: $ X_k $和数学公式: $ \lambda_{k+1} $,根据公式(8)计算目标的数学公式: $ U_k^t $
第五步:按照目标控制数学公式: $ U_k^t $来调整Action网络的权重
2.Critic网络的更新流程
第一步:输入状态数学公式: $ X_k $到Action 网络得到数学公式: $ {U_k} $;
第二步:系统模型按照已知的数学公式: $ X_k $和数学公式: $ {U_a} $根据公式(1)得到数学公式: $ X_{k+1} $
第三步:将数学公式: $ X_{k+1} $输入进Critic网络得到数学公式: $ \lambda_{k+1} $
第四步:使用数学公式: $ X_k $和数学公式: $ \lambda_{k+1} $,根据公式(10)计算目标的数学公式: $ \lambda_k^t $
第五步:按照目标costate数学公式: $ \lambda_k^t $来调整Critic网络的权重
参考:A single network adaptive critic (SNAC) architecture for optimal control synthesis for a class of nonlinear systems
这篇关于ADP算法中AC网络的更新方式的文章就介绍到这儿,希望我们推荐的文章对大家有所帮助,也希望大家多多支持为之网!
- 2024-06-30uniAPP 实现全屏左右滚动滚动的效果-icode9专业技术文章分享
- 2024-06-30如何在本地使用授权或插件-icode9专业技术文章分享
- 2024-06-30伪静态规则配置方法汇总-icode9专业技术文章分享
- 2024-06-29易优CMS安装常见问题汇总-icode9专业技术文章分享
- 2024-06-28易优新手必读安装教程-icode9专业技术文章分享
- 2024-06-28忘记eyoucms后台密码怎么办?-icode9专业技术文章分享
- 2024-06-26终极指南:Scrum中如何设置需求优先级
- 2024-06-26AI大模型企业应用实战(25)-为Langchain Agent添加记忆功能
- 2024-06-26小白家庭 nas 搭建方案-icode9专业技术文章分享
- 2024-06-23AI大模型企业应用实战(14)-langchain的Embedding