rl_pytorch/README.md at master · kekmodel/rl_pytorch · GitHub

Deep RL Algorithms in PyTorch

Models

DQN
Dueling Double DQN
Categorical DQN (C51)
Categotical Dueling Double DQN
Proximal Policy Optimization (PPO)
- discrete (episodic, n-step)
Group Relative Policy Optimization (GRPO)

Exploration

Random Network Distillation (RND)

Experiments

The result of passing the environment-defined "solving" criteria.

Dueling Double DQN
- Only one hyperparameter "UP_COEF" was adjusted.

CartPole-v0

CartPole-v1

MountainCar-v0

LunarLander-v2

TODO

Proximal Policy Optimization (PPO)
- continuous