15_mac_a2c.py目标网络未起作用

第15章意图用目标网络计算TD目标，但是下述代码认为奖励已经充分包括预测值，那目标网络的定义就没有意义了
```
        # 注意到simple_spread_v2中，reward是根据当前状态到目标位置的距离而计算的奖励。因此，直接使用reward作为td目标值更合适。
        # with torch.no_grad():
        #     td_value = self.target_value(bns).squeeze()
        #     td_value = br + self.gamma * td_value * (1 - bd)
```
另外有一个问题，就是P127页第8章的更新目标网络采用超参数 r 调整更新目标网络。想请问，如果使用设置同步频率，即n个周期同步一次目标网络代替文中的每个周期按照比例更新，在训练的效果上面有什么区别~

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

15_mac_a2c.py目标网络未起作用 #9

Metadata

Assignees

Labels

Projects

Milestone

Relationships

Development

15_mac_a2c.py目标网络未起作用 #9

Description

Metadata

Metadata

Assignees

Labels

Projects

Milestone

Relationships

Development

Issue actions