added expname to grid path

3 years ago · 41f94bf92e
1 changed files with 17 additions and 9 deletions
--- a/examples/shields/rl/15_train_eval_tune.py
+++ b/examples/shields/rl/15_train_eval_tune.py
@ -10,7 +10,7 @@ from ray.tune.logger import UnifiedLogger
 from ray.rllib.models import ModelCatalog
 from ray.tune.logger import pretty_print, UnifiedLogger, CSVLogger
 from ray.rllib.algorithms.algorithm import Algorithm
-
+from ray.air import session

 from torch_action_mask_model import TorchActionMaskModel
 from wrappers import OneHotShieldingWrapper, MiniGridShieldingWrapper
@ -25,11 +25,13 @@ def shielding_env_creater(config):
    name = config.get("name", "MiniGrid-LavaCrossingS9N3-v0")
    framestack = config.get("framestack", 4)
    args = config.get("args", None)
-    args.grid_path = F"{args.grid_path}_{config.worker_index}.txt"
-    args.prism_path = F"{args.prism_path}_{config.worker_index}.prism"
-    
+    args.grid_path = F"{args.expname}_{args.grid_path}_{config.worker_index}.txt"
+    args.prism_path = F"{args.expname}_{args.prism_path}_{config.worker_index}.prism"   
    shielding = config.get("shielding", False)   
-    shield_creator = MiniGridShieldHandler(args.grid_path, args.grid_to_prism_binary_path, args.prism_path, args.formula)
+    shield_creator = MiniGridShieldHandler(grid_file=args.grid_path, 
+                                           grid_to_prism_path=args.grid_to_prism_binary_path,
+                                           prism_path=args.prism_path,
+                                           formula=args.formula)
    
    env = gym.make(name)
    env = MiniGridShieldingWrapper(env, shield_creator=shield_creator, shield_query_creator=create_shield_query ,mask_actions=shielding)
@ -64,7 +66,10 @@ def ppo(args):
        .rollouts(num_rollout_workers=args.workers)
        .resources(num_gpus=0)
        .environment( env="mini-grid-shielding",
-                      env_config={"name": args.env, "args": args, "shielding": args.shielding is ShieldingConfig.Full or args.shielding is ShieldingConfig.Training})
+                      env_config={"name": args.env,
+                                  "args": args,                                  
+                                  "shielding": args.shielding is ShieldingConfig.Full or args.shielding is ShieldingConfig.Training,
+                                  },)
        .framework("torch")
        .callbacks(MyCallbacks)
        .evaluation(evaluation_config={ 
@ -72,7 +77,9 @@ def ppo(args):
                                        "evaluation_duration": 10,
                                        "evaluation_num_workers":1,
                                        "env": "mini-grid-shielding", 
-                                        "env_config": {"name": args.env, "args": args, "shielding": args.shielding is ShieldingConfig.Full or args.shielding is ShieldingConfig.Evaluation}})        
+                                        "env_config": {"name": args.env, 
+                                                       "args": args, 
+                                                       "shielding": args.shielding is ShieldingConfig.Full or args.shielding is ShieldingConfig.Evaluation}})        
        .rl_module(_enable_rl_module_api = False)
        .debugging(logger_config={
            "type": UnifiedLogger, 
@ -87,7 +94,8 @@ def ppo(args):
                           metric="episode_reward_mean",
                           mode="max",
                           num_samples=1,
-                           trial_name_creator=trial_name_creator,                           
+                           trial_name_creator=trial_name_creator,
+
                       ),
                        run_config=air.RunConfig(
                                stop = {"episode_reward_mean": 94,
@ -144,7 +152,7 @@ def ppo(args):
        
    
 def main():
-    ray.init(num_cpus=4)
+    ray.init(num_cpus=3)
    import argparse
    args = parse_arguments(argparse)