第15章意图用目标网络计算TD目标,但是下述代码认为奖励已经充分包括预测值,那目标网络的定义就没有意义了
# 注意到simple_spread_v2中,reward是根据当前状态到目标位置的距离而计算的奖励。因此,直接使用reward作为td目标值更合适。
# with torch.no_grad():
# td_value = self.target_value(bns).squeeze()
# td_value = br + self.gamma * td_value * (1 - bd)
另外有一个问题,就是P127页第8章的更新目标网络采用超参数 r 调整更新目标网络。想请问,如果使用设置同步频率,即n个周期同步一次目标网络代替文中的每个周期按照比例更新,在训练的效果上面有什么区别~
第15章意图用目标网络计算TD目标,但是下述代码认为奖励已经充分包括预测值,那目标网络的定义就没有意义了
另外有一个问题,就是P127页第8章的更新目标网络采用超参数 r 调整更新目标网络。想请问,如果使用设置同步频率,即n个周期同步一次目标网络代替文中的每个周期按照比例更新,在训练的效果上面有什么区别~