added tune example

refactored and evaluation logging
2 years ago · 138d917fd6
8 changed files with 272 additions and 110 deletions
--- a/examples/shields/rl/11_minigridrl.py
+++ b/examples/shields/rl/11_minigridrl.py
@ -1,10 +1,4 @@
 from typing import Dict
 from ray.rllib.env.base_env import BaseEnv
 from ray.rllib.evaluation import RolloutWorker
 from ray.rllib.evaluation.episode import Episode
 from ray.rllib.evaluation.episode_v2 import EpisodeV2
 from ray.rllib.policy import Policy
 from ray.rllib.utils.typing import PolicyID
 import gymnasium as gym
@ -15,7 +9,6 @@ import minigrid
 from ray.tune import register_env
 from ray.rllib.algorithms.ppo import PPOConfig
 from ray.rllib.algorithms.dqn.dqn import DQNConfig
 from ray.rllib.algorithms.callbacks import DefaultCallbacks
 from ray.tune.logger import pretty_print
 from ray.rllib.models import ModelCatalog
@ -23,42 +16,13 @@ from ray.rllib.models import ModelCatalog
 from TorchActionMaskModel import TorchActionMaskModel
 from Wrappers import OneHotShieldingWrapper, MiniGridShieldingWrapper
 from helpers import parse_arguments, create_log_dir, ShieldingConfig
 from ShieldHandlers import MiniGridShieldHandler
 from ShieldHandlers import MiniGridShieldHandler, create_shield_query
 from callbacks import MyCallbacks
 import matplotlib.pyplot as plt
 from ray.tune.logger import TBXLogger   
 class MyCallbacks(DefaultCallbacks):
    def on_episode_start(self, *, worker: RolloutWorker, base_env: BaseEnv, policies: Dict[PolicyID, Policy], episode: Episode | EpisodeV2, env_index: int | None = None, **kwargs) -> None:
        # print(F"Epsiode started Environment: {base_env.get_sub_environments()}")
        env = base_env.get_sub_environments()[0]
        episode.user_data["count"] = 0
        # print("On episode start print")
        # print(env.printGrid())
        # print(worker)
        # print(env.action_space.n)
        # print(env.actions)
        # print(env.mission)
        # print(env.observation_space)
        # img = env.get_frame()
        # plt.imshow(img)
        # plt.show()
    def on_episode_step(self, *, worker: RolloutWorker, base_env: BaseEnv, policies: Dict[PolicyID, Policy] | None = None, episode: Episode | EpisodeV2, env_index: int | None = None, **kwargs) -> None:
         episode.user_data["count"] = episode.user_data["count"] + 1
         env = base_env.get_sub_environments()[0]
        # print(env.printGrid())
    def on_episode_end(self, *, worker: RolloutWorker, base_env: BaseEnv, policies: Dict[PolicyID, Policy], episode: Episode | EpisodeV2 | Exception, env_index: int | None = None, **kwargs) -> None:
        # print(F"Epsiode end Environment: {base_env.get_sub_environments()}")
        env = base_env.get_sub_environments()[0]
        #print("On episode end print")
        #print(env.printGrid())
 def shielding_env_creater(config):
    name = config.get("name", "MiniGrid-LavaCrossingS9N1-v0")
    framestack = config.get("framestack", 4)
@ -69,7 +33,7 @@ def shielding_env_creater(config):
    shield_creator = MiniGridShieldHandler(args.grid_path, args.grid_to_prism_binary_path, args.prism_path, args.formula)
    env = gym.make(name)
    env = MiniGridShieldingWrapper(env, shield_creator=shield_creator)
    env = MiniGridShieldingWrapper(env, shield_creator=shield_creator, shield_query_creator=create_shield_query)
    # env = minigrid.wrappers.ImgObsWrapper(env)
    # env = ImgObsWrapper(env)
    env = OneHotShieldingWrapper(env,
@ -98,7 +62,7 @@ def ppo(args):
    config = (PPOConfig()
        .rollouts(num_rollout_workers=args.workers)
        .resources(num_gpus=0)
        .environment(env="mini-grid-shielding", env_config={"name": args.env, "args": args, "shielding": args.shielding is ShieldingConfig.Enabled or args.shielding is ShieldingConfig.Training})
        .environment(env="mini-grid-shielding", env_config={"name": args.env, "args": args, "shielding": args.shielding is ShieldingConfig.Full or args.shielding is ShieldingConfig.Training})
        .framework("torch")
        .callbacks(MyCallbacks)
        .rl_module(_enable_rl_module_api = False)
@ -132,7 +96,7 @@ def dqn(args):
    config = config.rollouts(num_rollout_workers=args.workers)
    config = config.environment(env="mini-grid-shielding", env_config={"name": args.env, "args": args })
    config = config.framework("torch")
    #config = config.callbacks(MyCallbacks)
    config = config.callbacks(MyCallbacks)
    config = config.rl_module(_enable_rl_module_api = False)
    config = config.debugging(logger_config={
            "type": TBXLogger, 
--- a/examples/shields/rl/13_minigridsb.py
+++ b/examples/shields/rl/13_minigridsb.py
@ -11,8 +11,8 @@ from minigrid.core.actions import Actions
 import numpy as np
 import time
 from helpers import parse_arguments, extract_keys, get_action_index_mapping, create_log_dir
 from ShieldHandlers import MiniGridShieldHandler
 from helpers import parse_arguments, create_log_dir, ShieldingConfig
 from ShieldHandlers import MiniGridShieldHandler, create_shield_query
 from Wrappers import MiniGridSbShieldingWrapper
 class CustomCallback(BaseCallback):
@ -27,6 +27,7 @@ class CustomCallback(BaseCallback):
 def mask_fn(env: gym.Env):
    return env.create_action_mask()
@ -42,10 +43,10 @@ def main():
    shield_creator = MiniGridShieldHandler(args.grid_path, args.grid_to_prism_binary_path, args.prism_path, args.formula)
    env = gym.make(args.env, render_mode="rgb_array")
    env = MiniGridSbShieldingWrapper(env, shield_creator=shield_creator, no_masking=args.no_masking)
    env = MiniGridSbShieldingWrapper(env, shield_creator=shield_creator, shield_query_creator=create_shield_query, mask_actions=args.shielding == ShieldingConfig.Full)
    env = ActionMasker(env, mask_fn)
    callback = CustomCallback(1, env)
    model = MaskablePPO(MaskableActorCriticPolicy, env, verbose=1, tensorboard_log=create_log_dir(args))
    model = MaskablePPO(MaskableActorCriticPolicy, env, gamma=0.4, verbose=1, tensorboard_log=create_log_dir(args))
    iterations = args.iterations
--- a/examples/shields/rl/14_train_eval.py
+++ b/examples/shields/rl/14_train_eval.py
@ -9,18 +9,20 @@ from ray.tune import register_env
 from ray.rllib.algorithms.ppo import PPOConfig
 from ray.rllib.algorithms.dqn.dqn import DQNConfig
 # from ray.rllib.algorithms.callbacks import DefaultCallbacks
 from ray.tune.logger import pretty_print
 from ray.tune.logger import pretty_print, TBXLogger, TBXLoggerCallback, DEFAULT_LOGGERS, UnifiedLogger, CSVLogger
 from ray.rllib.models import ModelCatalog
 from TorchActionMaskModel import TorchActionMaskModel
 from Wrappers import OneHotShieldingWrapper, MiniGridShieldingWrapper
 from helpers import parse_arguments, create_log_dir, ShieldingConfig
 from ShieldHandlers import MiniGridShieldHandler
 from ShieldHandlers import MiniGridShieldHandler, create_shield_query
 from callbacks import MyCallbacks
 import matplotlib.pyplot as plt
 from torch.utils.tensorboard import SummaryWriter
 from ray.tune.logger import TBXLogger   
@ -39,7 +41,7 @@ def shielding_env_creater(config):
    shield_creator = MiniGridShieldHandler(args.grid_path, args.grid_to_prism_binary_path, args.prism_path, args.formula)
    env = gym.make(name)
    env = MiniGridShieldingWrapper(env, shield_creator=shield_creator, mask_actions=shielding)
    env = MiniGridShieldingWrapper(env, shield_creator=shield_creator, shield_query_creator=create_shield_query ,mask_actions=shielding)
    env = OneHotShieldingWrapper(env,
                        config.vector_index if hasattr(config, "vector_index") else 0,
@ -67,16 +69,18 @@ def ppo(args):
        .rollouts(num_rollout_workers=args.workers)
        .resources(num_gpus=0)
        .environment( env="mini-grid-shielding",
                      env_config={"name": args.env, "args": args, "shielding": args.shielding is ShieldingConfig.Enabled or args.shielding is ShieldingConfig.Training})
                      env_config={"name": args.env, "args": args, "shielding": args.shielding is ShieldingConfig.Full or args.shielding is ShieldingConfig.Training})
        .framework("torch")
        .evaluation(evaluation_config={ "evaluation_interval": 1,
                                        "evaluation_parallel_to_training": False,
        .callbacks(MyCallbacks)
        .evaluation(evaluation_config={ 
                                       "evaluation_interval": 1,
                                        "evaluation_duration": 10,
                                        "evaluation_num_workers":1,
                                        "env": "mini-grid-shielding", 
                                        "env_config": {"name": args.env, "args": args, "shielding": args.shielding is ShieldingConfig.Enabled or args.shielding is ShieldingConfig.Evaluation}})
        #.callbacks(MyCallbacks)
                                        "env_config": {"name": args.env, "args": args, "shielding": args.shielding is ShieldingConfig.Full or args.shielding is ShieldingConfig.Evaluation}})        
        .rl_module(_enable_rl_module_api = False)
        .debugging(logger_config={
            "type": TBXLogger, 
            "type": UnifiedLogger, 
            "logdir": create_log_dir(args)
        })
        .training(_enable_learner_api=False ,model={
@ -90,16 +94,34 @@ def ppo(args):
    iterations = args.iterations
    for i in range(iterations):
        algo.train()
        if i % 5 == 0:
            algo.save()
    writer = SummaryWriter(log_dir=F"{create_log_dir(args)}-eval")
    csv_logger = CSVLogger()
    for i in range(iterations):
        eval_result = algo.evaluate()
        print(pretty_print(eval_result))
        print(eval_result)
        # logger.on_result(eval_result)
        evaluation = eval_result['evaluation']
        epsiode_reward_mean = evaluation['episode_reward_mean']
        episode_len_mean = evaluation['episode_len_mean']
        print(epsiode_reward_mean)
        writer.add_scalar("evaluation/episode_reward_mean", epsiode_reward_mean, i)
        writer.add_scalar("evaluation/episode_len_mean", episode_len_mean, i)
    writer.close()
 def main():
--- a/examples/shields/rl/15_train_eval_tune.py
+++ b/examples/shields/rl/15_train_eval_tune.py
@ -0,0 +1,118 @@
 import gymnasium as gym
 import minigrid
 # import numpy as np
 # import ray
 from ray.tune import register_env
 from ray import tune, air
 from ray.rllib.algorithms.ppo import PPOConfig
 from ray.rllib.algorithms.dqn.dqn import DQNConfig
 # from ray.rllib.algorithms.callbacks import DefaultCallbacks
 from ray.tune.logger import pretty_print, TBXLogger, TBXLoggerCallback, DEFAULT_LOGGERS, UnifiedLogger
 from ray.rllib.models import ModelCatalog
 from TorchActionMaskModel import TorchActionMaskModel
 from Wrappers import OneHotShieldingWrapper, MiniGridShieldingWrapper
 from helpers import parse_arguments, create_log_dir, ShieldingConfig
 from ShieldHandlers import MiniGridShieldHandler, create_shield_query
 from callbacks import MyCallbacks
 import matplotlib.pyplot as plt
 from torch.utils.tensorboard import SummaryWriter
 def shielding_env_creater(config):
    name = config.get("name", "MiniGrid-LavaCrossingS9N1-v0")
    framestack = config.get("framestack", 4)
    args = config.get("args", None)
    args.grid_path = F"{args.grid_path}_{config.worker_index}.txt"
    args.prism_path = F"{args.prism_path}_{config.worker_index}.prism"
    shielding = config.get("shielding", False)
    # if shielding:
    #     assert(False)
    shield_creator = MiniGridShieldHandler(args.grid_path, args.grid_to_prism_binary_path, args.prism_path, args.formula)
    env = gym.make(name)
    env = MiniGridShieldingWrapper(env, shield_creator=shield_creator, shield_query_creator=create_shield_query ,mask_actions=shielding)
    env = OneHotShieldingWrapper(env,
                        config.vector_index if hasattr(config, "vector_index") else 0,
                        framestack=framestack
                        )
    return env
 def register_minigrid_shielding_env(args):
    env_name = "mini-grid-shielding"
    register_env(env_name, shielding_env_creater)
    ModelCatalog.register_custom_model(
        "shielding_model", 
        TorchActionMaskModel
    )
 def ppo(args):
    register_minigrid_shielding_env(args)
    config = (PPOConfig()
        .rollouts(num_rollout_workers=args.workers)
        .resources(num_gpus=0)
        .environment( env="mini-grid-shielding",
                      env_config={"name": args.env, "args": args, "shielding": args.shielding is ShieldingConfig.Full or args.shielding is ShieldingConfig.Training})
        .framework("torch")
        .callbacks(MyCallbacks)
        .evaluation(evaluation_config={ 
                                       "evaluation_interval": 1,
                                        "evaluation_duration": 10,
                                        "evaluation_num_workers":1,
                                        "env": "mini-grid-shielding", 
                                        "env_config": {"name": args.env, "args": args, "shielding": args.shielding is ShieldingConfig.Full or args.shielding is ShieldingConfig.Evaluation}})        
        .rl_module(_enable_rl_module_api = False)
        .debugging(logger_config={
            "type": UnifiedLogger, 
            "logdir": create_log_dir(args)
        })
        .training(_enable_learner_api=False ,model={
            "custom_model": "shielding_model"      
        }))
    tuner = tune.Tuner("PPO",
                        run_config=air.RunConfig(
                                stop = {"episode_reward_mean": 50}, 
                                checkpoint_config=air.CheckpointConfig(checkpoint_at_end=True),
                                storage_path=F"{create_log_dir(args)}-tuner"
    ),
    param_space=config,)
    tuner.fit()
    iterations = args.iterations
    print(config.to_dict())
    tune.run("PPO", config=config)
        # print(epsiode_reward_mean)
        # writer.add_scalar("evaluation/episode_reward", epsiode_reward_mean, i)
 def main():
    import argparse
    args = parse_arguments(argparse)
    ppo(args)
 if __name__ == '__main__':
    main()
--- a/examples/shields/rl/ShieldHandlers.py
+++ b/examples/shields/rl/ShieldHandlers.py
@ -15,7 +15,7 @@ import os
 class ShieldHandler(ABC):
    def __init__(self) -> None:
        pass
    def create_shield(self, **kwargs):
    def create_shield(self, **kwargs) -> dict:
        pass
 class MiniGridShieldHandler(ShieldHandler):
@ -32,7 +32,9 @@ class MiniGridShieldHandler(ShieldHandler):
    def __create_prism(self):
        os.system(F"{self.grid_to_prism_path} -v 'agent' -i {self.grid_file} -o {self.prism_path}")
        result = os.system(F"{self.grid_to_prism_path} -v 'agent' -i {self.grid_file} -o {self.prism_path}")
        assert result == 0, "Prism file could not be generated"
        f = open(self.prism_path, "a")
        f.write("label \"AgentIsInLava\" = AgentIsInLava;")
@ -79,3 +81,16 @@ class MiniGridShieldHandler(ShieldHandler):
        return self.__create_shield_dict()
 def create_shield_query(env):
    coordinates = env.env.agent_pos
    view_direction = env.env.agent_dir
    key_text = ""
    # only support one key for now
    #print(F"Agent pos is {self.env.agent_pos} and direction {self.env.agent_dir} ")
    cur_pos_str = f"[{key_text}!AgentDone\t& xAgent={coordinates[0]}\t& yAgent={coordinates[1]}\t& viewAgent={view_direction}]"
    return cur_pos_str
--- a/examples/shields/rl/Wrappers.py
+++ b/examples/shields/rl/Wrappers.py
@ -82,7 +82,12 @@ class OneHotShieldingWrapper(gym.core.ObservationWrapper):
 class MiniGridShieldingWrapper(gym.core.Wrapper):
    def __init__(self, env, shield_creator : ShieldHandler, create_shield_at_reset=True, mask_actions=True):
    def __init__(self, 
                 env, 
                shield_creator : ShieldHandler,
                shield_query_creator,
                create_shield_at_reset=True,    
                mask_actions=True):
        super(MiniGridShieldingWrapper, self).__init__(env)
        self.max_available_actions = env.action_space.n
        self.observation_space = Dict(
@ -95,32 +100,18 @@ class MiniGridShieldingWrapper(gym.core.Wrapper):
        self.create_shield_at_reset = create_shield_at_reset
        self.shield = shield_creator.create_shield(env=self.env)
        self.mask_actions = mask_actions
        self.shield_query_creator = shield_query_creator
    def create_action_mask(self):
        if not self.mask_actions:
            return np.array([1.0] * self.max_available_actions, dtype=np.int8)
        coordinates = self.env.agent_pos
        view_direction = self.env.agent_dir
        key_text = ""
        # only support one key for now
        if self.keys:
            key_text = F"!Agent_has_{self.keys[0]}_key\t& "
        if self.env.carrying and self.env.carrying.type == "key":
            key_text = F"Agent_has_{self.env.carrying.color}_key\t& "
        cur_pos_str = f"[{key_text}!AgentDone\t& xAgent={coordinates[0]}\t& yAgent={coordinates[1]}\t& viewAgent={view_direction}]"
        allowed_actions = []
        cur_pos_str = self.shield_query_creator(self.env)
        # Create the mask
        # If shield restricts action mask only valid with 1.0
        # else set all actions as valid
        allowed_actions = []
        mask = np.array([0.0] * self.max_available_actions, dtype=np.int8)
        if cur_pos_str in self.shield and self.shield[cur_pos_str]:
@ -175,38 +166,32 @@ class MiniGridShieldingWrapper(gym.core.Wrapper):
 class MiniGridSbShieldingWrapper(gym.core.Wrapper):
    def __init__(self, env, shield_creator : ShieldHandler, no_masking=False):
    def __init__(self, 
                 env, 
                 shield_creator : ShieldHandler,
                 shield_query_creator,
                 create_shield_at_reset = True,
                 mask_actions=True,
                 ):
        super(MiniGridSbShieldingWrapper, self).__init__(env)
        self.max_available_actions = env.action_space.n
        self.observation_space = env.observation_space.spaces["image"]
        self.shield_creator = shield_creator
        self.no_masking = no_masking
        self.mask_actions = mask_actions
        self.shield_query_creator = shield_query_creator
    def create_action_mask(self):
        if self.no_masking:
        if not self.mask_actions:
            return  np.array([1.0] * self.max_available_actions, dtype=np.int8)
        coordinates = self.env.agent_pos
        view_direction = self.env.agent_dir
        cur_pos_str = self.shield_query_creator(self.env)
        key_text = ""
        # only support one key for now
        if self.keys:
            key_text = F"!Agent_has_{self.keys[0]}_key\t& "
        if self.env.carrying and self.env.carrying.type == "key":
            key_text = F"Agent_has_{self.env.carrying.color}_key\t& "
        #print(F"Agent pos is {self.env.agent_pos} and direction {self.env.agent_dir} ")
        cur_pos_str = f"[{key_text}!AgentDone\t& xAgent={coordinates[0]}\t& yAgent={coordinates[1]}\t& viewAgent={view_direction}]"
        allowed_actions = []
        # Create the mask
        # If shield restricts action mask only valid with 1.0
        # else set all actions as valid
        # If shield restricts actions, mask only valid actions with 1.0
        # else set all actions valid
        mask = np.array([0.0] * self.max_available_actions, dtype=np.int8)
        if cur_pos_str in self.shield and self.shield[cur_pos_str]:
@ -215,25 +200,21 @@ class MiniGridSbShieldingWrapper(gym.core.Wrapper):
                 index =  get_action_index_mapping(allowed_action[1])
                 if index is None:
                     assert(False)
                 mask[index] = 1.0
        else:
            # print(F"Not in shield {cur_pos_str}")
            for index, x in enumerate(mask):
                mask[index] = 1.0
        front_tile = self.env.grid.get(self.env.front_pos[0], self.env.front_pos[1])
        # if front_tile is not None and front_tile.type == "key":
        #     mask[Actions.pickup] = 1.0
        # if self.env.carrying:
        #     mask[Actions.drop] = 1.0
        if front_tile and front_tile.type == "door":
            mask[Actions.toggle] = 1.0            
        return mask  
    def reset(self, *, seed=None, options=None):
        obs, infos = self.env.reset(seed=seed, options=options)
--- a/examples/shields/rl/callbacks.py
+++ b/examples/shields/rl/callbacks.py
@ -0,0 +1,61 @@
 from typing import Dict
 from ray.rllib.policy import Policy
 from ray.rllib.utils.typing import PolicyID
 from ray.rllib.algorithms.algorithm import Algorithm
 from ray.rllib.env.base_env import BaseEnv
 from ray.rllib.evaluation import RolloutWorker
 from ray.rllib.evaluation.episode import Episode
 from ray.rllib.evaluation.episode_v2 import EpisodeV2
 from ray.rllib.algorithms.callbacks import DefaultCallbacks, make_multi_callbacks
 class MyCallbacks(DefaultCallbacks):
    def on_episode_start(self, *, worker: RolloutWorker, base_env: BaseEnv, policies: Dict[PolicyID, Policy], episode: Episode | EpisodeV2, env_index: int | None = None, **kwargs) -> None:
        # print(F"Epsiode started Environment: {base_env.get_sub_environments()}")
        env = base_env.get_sub_environments()[0]
        episode.user_data["count"] = 0
        episode.user_data["ran_into_lava"] = []
        episode.user_data["goals_reached"] = []
        episode.hist_data["ran_into_lava"] = []
        episode.hist_data["goals_reached"] = []
        # print("On episode start print")
        # print(env.printGrid())
        # print(worker)
        # print(env.action_space.n)
        # print(env.actions)
        # print(env.mission)
        # print(env.observation_space)
        # img = env.get_frame()
        # plt.imshow(img)
        # plt.show()
    def on_episode_step(self, *, worker: RolloutWorker, base_env: BaseEnv, policies: Dict[PolicyID, Policy] | None = None, episode: Episode | EpisodeV2, env_index: int | None = None, **kwargs) -> None:
         episode.user_data["count"] = episode.user_data["count"] + 1
         env = base_env.get_sub_environments()[0]
        #  print(env.printGrid())
    def on_episode_end(self, *, worker: RolloutWorker, base_env: BaseEnv, policies: Dict[PolicyID, Policy], episode: Episode | EpisodeV2 | Exception, env_index: int | None = None, **kwargs) -> None:
        # print(F"Epsiode end Environment: {base_env.get_sub_environments()}")
        env = base_env.get_sub_environments()[0]
        agent_tile = env.grid.get(env.agent_pos[0], env.agent_pos[1])
        episode.user_data["goals_reached"].append(agent_tile is not None and agent_tile.type == "goal")
        episode.user_data["ran_into_lava"].append(agent_tile is not None and agent_tile.type == "lava")
        episode.custom_metrics["reached_goal"] = agent_tile is not None and agent_tile.type == "goal"
        episode.custom_metrics["ran_into_lava"] =  agent_tile is not None and agent_tile.type == "lava"
        #print("On episode end print")
        #print(env.printGrid())
        episode.hist_data["goals_reached"] = episode.user_data["goals_reached"]
        episode.hist_data["ran_into_lava"] = episode.user_data["ran_into_lava"]
    def on_evaluate_start(self, *, algorithm: Algorithm, **kwargs) -> None:
        print("Evaluate Start")
    def on_evaluate_end(self, *, algorithm: Algorithm, evaluation_metrics: dict, **kwargs) -> None:
        print("Evaluate End")
--- a/examples/shields/rl/helpers.py
+++ b/examples/shields/rl/helpers.py
@ -20,7 +20,7 @@ class ShieldingConfig(Enum):
    Training = 'training'
    Evaluation = 'evaluation'
    Disabled = 'none'
    Enabled = 'full'
    Full = 'full'
    def __str__(self) -> str:
        return self.value
@ -39,7 +39,7 @@ def extract_keys(env):
    return keys
 def create_log_dir(args):
    return F"{args.log_dir}{datetime.now()}-{args.algorithm}-shielding:{args.shielding}-env:{args.env}"
    return F"{args.log_dir}{datetime.now()}-{args.algorithm}-shielding:{args.shielding}-env:{args.env}-iterations:{args.iterations}"
 def get_action_index_mapping(actions):
@ -93,7 +93,7 @@ def parse_arguments(argparse):
    parser.add_argument("--iterations", type=int, default=30 )
    parser.add_argument("--formula", default="Pmax=? [G !\"AgentIsInLavaAndNotDone\"]")  # formula_str = "Pmax=? [G ! \"AgentIsInGoalAndNotDone\"]"
    parser.add_argument("--workers", type=int, default=1)
    parser.add_argument("--shielding", type=ShieldingConfig, choices=list(ShieldingConfig), default=ShieldingConfig.Enabled)
    parser.add_argument("--shielding", type=ShieldingConfig, choices=list(ShieldingConfig), default=ShieldingConfig.Full)
    args = parser.parse_args()