chap14：优化 Reversi 训练参数化并增加报告导出 by cccrrr0429 · Pull Request #6030 · OpenHUTB/nn

cccrrr0429 · 2026-05-05T06:24:11Z

修改概述:

对 `src/chap14_reinforcement_learning/reversi_main.py` 进行小幅工程化改进，在不改变 Reversi 强化学习主流程的前提下，增强参数可配置性、实验可复现性和结果可追踪性；同步更新 `README.md` 补充运行说明。

修改的详细描述

更新 src/chap14_reinforcement_learning/reversi_main.py
- 新增环境变量参数：
  - REVERSI_SEED
  - REVERSI_MAX_EPOCHS
  - REVERSI_RENDER_INTERVAL
  - REVERSI_MAX_STEPS
  - REVERSI_REPORT_OUT
  - REVERSI_DRY_RUN
- 增加随机种子设置（random、numpy）。
- 增加训练报告导出功能，自动生成 outputs/reversi_train_report.json。
- 增加 DRY_RUN 模式，便于在不完整依赖环境下快速验证脚本流程与输出文件。
更新 src/chap14_reinforcement_learning/README.md
- 补充本次工程化改进说明。
- 增加 PowerShell 运行示例（含 dry-run 与正常运行示例）。

测试命令：

$env:REVERSI_DRY_RUN=1
$env:REVERSI_REPORT_OUT="outputs/reversi_train_report.json"
python .\reversi_main.py

动图、视频、截图等

chap14：优化 Reversi 训练参数化并增加报告导出

2dc55cc