reinforcement-learning

Epsilon-greedy
Gradient bandit
Markov decision processes; Bellman equation; Iterative policy evaluation
Monte carlo control; Epsilon-soft
Optimistic initial values; Policy iteration
Importance sampling; Off-policy MC prediction; One-step temporal difference prediction

Name		Name	Last commit message	Last commit date
Latest commit History 9 Commits
.gitignore		.gitignore
01.ipynb		01.ipynb
02.ipynb		02.ipynb
03.ipynb		03.ipynb
04.ipynb		04.ipynb
05.ipynb		05.ipynb
06.ipynb		06.ipynb
README.md		README.md
Viral_load.csv		Viral_load.csv

Provide feedback