
在引理7.2的证明中,
$$Q_{\pi}(s,a)=E_{S’\ \sim \ p\ (\ \dot\ |\ s\ ;\ \theta)}[R(s,a,S')+\gamma\ \dot \ V_{\pi}(s') ]$$
此处 $V_{\pi}(S')$ 应该仍然是 $S'$ 的函数,此处在数学上并未是描述某个具体状态,我认为此处或许出了错误?
应该为,
$$Q_{\pi}(s,a)=E_{S’\ \sim \ p\ (\ \dot\ |\ s\ ;\ \theta)}[R(s,a,S')+\gamma\ \dot \ V_{\pi}(S') ]$$
GitHub上的markdown我不是很熟悉,见谅。
在引理7.2的证明中,
此处
应该为,
GitHub上的markdown我不是很熟悉,见谅。