ADP算法中AC网络的更新方式

2021/8/10 17:05:34

编程Tag： 算法 left right ac Lambda partial frac 数学公式 ADP

本文主要是介绍ADP算法中AC网络的更新方式，对大家解决编程问题具有一定的参考价值，需要的程序猿们随着小编来一起学习吧！

以离散时间系统为例，对自适应动态规划（Adaptive Dynamic Programming，ADP）中Action Network和Critic Network两个网络的更新方式进行说明。

一、系统定义

1.状态方程 state equation

${X_{k + 1}} = {F_k}({X_k},{U_k})$（1）

其中数学公式: $ U $是控制指令，数学公式: $ F $是关于状态和控制的动力方程。

2.代价函数 cost function

$J = \sum \limits_{k = 1}^{N - 1} {\psi _k}\left( {{X_k},{U_k}} \right)$ (2)

其中数学公式: $ \psi $为效用函数。对公式2进重写让其从时间k开始

$ {J_k} = \sum \limits_{\widetilde k = k}^{N - 1} {\psi_{\widetilde k}}\left({{X_{\widetilde k}},{U_{\widetilde k}}} \right) $ (3)

可以对数学公式: $ {J_k} $进行一个拆分

$ {J_k} = {\psi_k} + {J_{k + 1}} $（4）

3.定义costate vector

定义在时间k的costate vector

$ {\lambda_k} = \frac{{\partial {J_k}}}{{\partial {X_k}}} $（5）

4.最优的必要条件

$ \frac{{\partial {J_k}}}{{\partial {U_k}}} = 0 $（6）

计算

$ \frac{{\partial {J_k}}}{{\partial {U_k}}} = \left( {\frac{{\partial {\psi_k}}}{{\partial {U_k}}}} \right) + \left( {\frac{{\partial {J_{k + 1}}}}{{\partial {U_k}}}} \right) = \left( {\frac{{\partial {\psi_k}}}{{\partial {U_k}}}} \right) + {(\frac{{\partial {X_{k + 1}}}}{{\partial {U_k}}})^T}\left( {\frac{{\partial {J_{k + 1}}}}{{\partial {X_{k + 1}}}}} \right) $ $ = \left({\frac{{\partial {\psi_k}}}{{\partial {U_k}}}} \right) + {(\frac{{\partial {X_{k + 1}}}}{{\partial {U_k}}})^T}{\lambda _{k + 1}} $（7）

结合公式（6）和（7）可以得出

$ \left( {\frac{{\partial {\psi_k}}}{{\partial {U_k}}}} \right) + {(\frac{{\partial {X_{k + 1}}}}{{\partial {U_k}}})^T}{\lambda_{k + 1}} = 0 $（8）

结合公式（4）和（5）可以对costate vector进行重写

$ {\lambda_k} = \frac{{\partial {J_k}}}{{\partial {X_k}}} = \left( {\frac{{\partial {\psi_k}}}{{\partial {X_k}}}} \right) + \left( {\frac{{\partial {J_{k + 1}}}}{{\partial {X_k}}}} \right) = \left( {\frac{{\partial {\psi_k}}}{{\partial {X_k}}}} \right) + {(\frac{{\partial {X_{k + 1}}}}{{\partial {X_k}}})^T}\left( {\frac{{\partial {J_{k + 1}}}}{{\partial {X_{k + 1}}}}} \right) $（9）

所以可以得到数学公式: $ \lambda_k $和数学公式: $ \lambda_{k+1} $之间的关系式

$ {\lambda_k} = \left( {\frac{{\partial {\psi_k}}}{{\partial {X_k}}}} \right) + {(\frac{{\partial {X_{k + 1}}}}{{\partial {X_k}}})^T}{\lambda_{k + 1}} $（10）

公式（1）（8）和（10）必须同时求解，并配合适当的边界条件以求得最优控制的综合。

二、网络的训练

基于AC的ADP算法拥有两个网络分别是Action网络和Critic网络，Action网络主要的作用是根据状态信息生成控制指令，Critic网络的作用是生成costate vector用于调整两个网络的权重。

1.Action 网络的更新流程

第一步：输入状态数学公式: $ X_k $到Action 网络得到数学公式: $ {U_k} $；
第二步：系统模型按照已知的数学公式: $ X_k $和数学公式: $ {U_a} $根据公式（1）得到数学公式: $ X_{k+1} $
第三步：将数学公式: $ X_{k+1} $输入进Critic网络得到数学公式: $ \lambda_{k+1} $
第四步：使用数学公式: $ X_k $和数学公式: $ \lambda_{k+1} $，根据公式（8）计算目标的数学公式: $ U_k^t $
第五步：按照目标控制数学公式: $ U_k^t $来调整Action网络的权重

2.Critic网络的更新流程

第一步：输入状态数学公式: $ X_k $到Action 网络得到数学公式: $ {U_k} $；
第二步：系统模型按照已知的数学公式: $ X_k $和数学公式: $ {U_a} $根据公式（1）得到数学公式: $ X_{k+1} $
第三步：将数学公式: $ X_{k+1} $输入进Critic网络得到数学公式: $ \lambda_{k+1} $
第四步：使用数学公式: $ X_k $和数学公式: $ \lambda_{k+1} $，根据公式（10）计算目标的数学公式: $ \lambda_k^t $
第五步：按照目标costate数学公式: $ \lambda_k^t $来调整Critic网络的权重

参考：A single network adaptive critic (SNAC) architecture for optimal control synthesis for a class of nonlinear systems

这篇关于ADP算法中AC网络的更新方式的文章就介绍到这儿，希望我们推荐的文章对大家有所帮助，也希望大家多多支持为之网！

ADP算法中AC网络的更新方式

一、系统定义

二、网络的训练

相关编程文章