changed ray tune example

2 years ago · 717c644aad
2 changed files with 57 additions and 17 deletions
--- a/examples/shields/rl/15_train_eval_tune.py
+++ b/examples/shields/rl/15_train_eval_tune.py
@ -6,6 +6,8 @@ from ray import tune, air
 from ray.rllib.algorithms.ppo import PPOConfig
 from ray.tune.logger import UnifiedLogger
 from ray.rllib.models import ModelCatalog
+from ray.tune.logger import pretty_print, UnifiedLogger, CSVLogger
+from ray.rllib.algorithms.algorithm import Algorithm


 from torch_action_mask_model import TorchActionMaskModel
@ -13,6 +15,7 @@ from wrappers import OneHotShieldingWrapper, MiniGridShieldingWrapper
 from helpers import parse_arguments, create_log_dir, ShieldingConfig
 from shieldhandlers import MiniGridShieldHandler, create_shield_query

+from torch.utils.tensorboard import SummaryWriter
 from callbacks import MyCallbacks
 

@ -24,10 +27,6 @@ def shielding_env_creater(config):
    args.prism_path = F"{args.prism_path}_{config.worker_index}.prism"
    
    shielding = config.get("shielding", False)   
-    
-    # if shielding:
-    #     assert(False)
-    
    shield_creator = MiniGridShieldHandler(args.grid_path, args.grid_to_prism_binary_path, args.prism_path, args.formula)
    
    env = gym.make(name)
@ -54,6 +53,7 @@ def register_minigrid_shielding_env(args):

 def ppo(args):
    register_minigrid_shielding_env(args)
+    logdir = create_log_dir(args)
    
    config = (PPOConfig()
        .rollouts(num_rollout_workers=args.workers)
@ -71,25 +71,65 @@ def ppo(args):
        .rl_module(_enable_rl_module_api = False)
        .debugging(logger_config={
            "type": UnifiedLogger, 
-            "logdir": create_log_dir(args)
+            "logdir": logdir
        })
        .training(_enable_learner_api=False ,model={
            "custom_model": "shielding_model"      
        }))
    
    tuner = tune.Tuner("PPO",
+                       tune_config=tune.TuneConfig(
+                           metric="episode_reward_mean",
+                           mode="max",
+                           num_samples=1,
+                           
+                       ),
                        run_config=air.RunConfig(
-                                stop = {"episode_reward_mean": 50}, 
-                                checkpoint_config=air.CheckpointConfig(checkpoint_at_end=True),
-                                storage_path=F"{create_log_dir(args)}-tuner"
-    ),
+                                stop = {"episode_reward_mean": 94,
+                                        "training_iteration": args.iterations}, 
+                                checkpoint_config=air.CheckpointConfig(checkpoint_at_end=True, num_to_keep=2 ),
+                               storage_path=F"{logdir}"
+                                #storage_path="../niceslogging/test"
+    )
+                        ,
    param_space=config,)
    
-    tuner.fit()
+    results = tuner.fit()
+    best_result = results.get_best_result()
+    
+    import pprint
+    
+    metrics_to_print = [
+    "episode_reward_mean",
+    "episode_reward_max",
+    "episode_reward_min",
+    "episode_len_mean",
+]
+    pprint.pprint({k: v for k, v in best_result.metrics.items() if k in metrics_to_print})
+
+    algo = Algorithm.from_checkpoint(best_result.checkpoint)
+    
+       
+    eval_log_dir = F"{logdir}-eval"
+        
+    writer = SummaryWriter(log_dir=eval_log_dir)
+    csv_logger = CSVLogger(config=config, logdir=eval_log_dir)
+    
+    
+    for i in range(args.iterations):
+        eval_result = algo.evaluate()
+        print(pretty_print(eval_result))
+        print(eval_result)
+        # logger.on_result(eval_result)

+        csv_logger.on_result(eval_result)
        
-        # print(epsiode_reward_mean)
-        # writer.add_scalar("evaluation/episode_reward", epsiode_reward_mean, i)
+        evaluation = eval_result['evaluation']
+        epsiode_reward_mean = evaluation['episode_reward_mean']
+        episode_len_mean = evaluation['episode_len_mean']
+        print(epsiode_reward_mean)
+        writer.add_scalar("evaluation/episode_reward_mean", epsiode_reward_mean, i)
+        writer.add_scalar("evaluation/episode_len_mean", episode_len_mean, i)
        
    
 def main():
--- a/examples/shields/rl/helpers.py
+++ b/examples/shields/rl/helpers.py
@ -39,7 +39,7 @@ def extract_keys(env):
    return keys

 def create_log_dir(args):
-    return F"{args.log_dir}{datetime.now()}-{args.algorithm}-shielding:{args.shielding}-env:{args.env}-iterations:{args.iterations}"
+    return F"{args.log_dir}{args.algorithm}-shielding:{args.shielding}-iterations:{args.iterations}"


 def get_action_index_mapping(actions):