REINFORCE with Baseline 这一节的 slides [4_Policy_2.pdf] 的第 27 页出现错误  这里 V(s) 应该为 action-value function 的期望
REINFORCE with Baseline 这一节的 slides [4_Policy_2.pdf] 的第 27 页出现错误

这里 V(s) 应该为 action-value function 的期望