reintroduced learning

2 years ago · dc8e4f320d
1 changed files with 26 additions and 26 deletions
--- a/examples/shields/rl/13_minigridsb.py
+++ b/examples/shields/rl/13_minigridsb.py
@ -65,32 +65,32 @@ def main():
        eval_env = ActionMasker(eval_env, nomask_fn)
    else:
        assert(False) # TODO Do something proper
-    #model = MaskablePPO("CnnPolicy", env, verbose=1, tensorboard_log=log_dir, device="auto")
-    #model.set_logger(new_logger)
-    #steps = args.steps
-
-
-    ## Evaluation
-    #eval_freq=max(500, int(args.steps/30))
-    #n_eval_episodes=5
-    #render_freq = eval_freq
-    #if shielded_evaluation(args.shielding):
-    #    from sb3_contrib.common.maskable.evaluation import evaluate_policy
-    #    evalCallback = MaskableEvalCallback(eval_env, best_model_save_path=log_dir,
-    #                                        log_path=log_dir, eval_freq=eval_freq,
-    #                                        deterministic=True, render=False, n_eval_episodes=n_eval_episodes)
-    #    imageAndVideoCallback = ImageRecorderCallback(eval_env, render_freq, n_eval_episodes=1, evaluation_method=evaluate_policy, log_dir=log_dir, deterministic=True, verbose=0)
-    #else:
-    #    from stable_baselines3.common.evaluation import evaluate_policy
-    #    evalCallback = EvalCallback(eval_env, best_model_save_path=log_dir,
-    #                                log_path=log_dir, eval_freq=eval_freq,
-    #                                deterministic=True, render=False, n_eval_episodes=n_eval_episodes)
-
-    #    imageAndVideoCallback = ImageRecorderCallback(eval_env, render_freq, n_eval_episodes=1, evaluation_method=evaluate_policy, log_dir=log_dir, deterministic=True, verbose=0)
-
-
-    #model.learn(steps,callback=[imageAndVideoCallback, InfoCallback(), evalCallback])
-    #model.save(f"{log_dir}/{expname(args)}")
+    model = MaskablePPO("CnnPolicy", env, verbose=1, tensorboard_log=log_dir, device="auto")
+    model.set_logger(new_logger)
+    steps = args.steps
+
+
+    # Evaluation
+    eval_freq=max(500, int(args.steps/30))
+    n_eval_episodes=5
+    render_freq = eval_freq
+    if shielded_evaluation(args.shielding):
+        from sb3_contrib.common.maskable.evaluation import evaluate_policy
+        evalCallback = MaskableEvalCallback(eval_env, best_model_save_path=log_dir,
+                                            log_path=log_dir, eval_freq=eval_freq,
+                                            deterministic=True, render=False, n_eval_episodes=n_eval_episodes)
+        imageAndVideoCallback = ImageRecorderCallback(eval_env, render_freq, n_eval_episodes=1, evaluation_method=evaluate_policy, log_dir=log_dir, deterministic=True, verbose=0)
+    else:
+        from stable_baselines3.common.evaluation import evaluate_policy
+        evalCallback = EvalCallback(eval_env, best_model_save_path=log_dir,
+                                    log_path=log_dir, eval_freq=eval_freq,
+                                    deterministic=True, render=False, n_eval_episodes=n_eval_episodes)
+
+        imageAndVideoCallback = ImageRecorderCallback(eval_env, render_freq, n_eval_episodes=1, evaluation_method=evaluate_policy, log_dir=log_dir, deterministic=True, verbose=0)
+
+
+    model.learn(steps,callback=[imageAndVideoCallback, InfoCallback(), evalCallback])
+    model.save(f"{log_dir}/{expname(args)}")


 if __name__ == '__main__':