added more shielding options

(training, evaluation, none, both)
2 years ago · e2c855dc6a
5 changed files with 175 additions and 58 deletions
--- a/examples/shields/rl/11_minigridrl.py
+++ b/examples/shields/rl/11_minigridrl.py
@ -1,10 +1,10 @@
 # from typing import Dict
 # from ray.rllib.env.base_env import BaseEnv
 # from ray.rllib.evaluation import RolloutWorker
 # from ray.rllib.evaluation.episode import Episode
 # from ray.rllib.evaluation.episode_v2 import EpisodeV2
 # from ray.rllib.policy import Policy
 # from ray.rllib.utils.typing import PolicyID
 from typing import Dict
 from ray.rllib.env.base_env import BaseEnv
 from ray.rllib.evaluation import RolloutWorker
 from ray.rllib.evaluation.episode import Episode
 from ray.rllib.evaluation.episode_v2 import EpisodeV2
 from ray.rllib.policy import Policy
 from ray.rllib.utils.typing import PolicyID
 import gymnasium as gym
@ -15,47 +15,47 @@ import minigrid
 from ray.tune import register_env
 from ray.rllib.algorithms.ppo import PPOConfig
 from ray.rllib.algorithms.dqn.dqn import DQNConfig
 # from ray.rllib.algorithms.callbacks import DefaultCallbacks
 from ray.rllib.algorithms.callbacks import DefaultCallbacks
 from ray.tune.logger import pretty_print
 from ray.rllib.models import ModelCatalog
 from TorchActionMaskModel import TorchActionMaskModel
 from Wrappers import OneHotShieldingWrapper, MiniGridShieldingWrapper
 from helpers import parse_arguments, create_log_dir
 from helpers import parse_arguments, create_log_dir, ShieldingConfig
 from ShieldHandlers import MiniGridShieldHandler
 import matplotlib.pyplot as plt
 from ray.tune.logger import TBXLogger   
 # class MyCallbacks(DefaultCallbacks):
 #     def on_episode_start(self, *, worker: RolloutWorker, base_env: BaseEnv, policies: Dict[PolicyID, Policy], episode: Episode | EpisodeV2, env_index: int | None = None, **kwargs) -> None:
 #         # print(F"Epsiode started Environment: {base_env.get_sub_environments()}")
 #         env = base_env.get_sub_environments()[0]
 #         episode.user_data["count"] = 0
 #         # print("On episode start print")
 #         # print(env.printGrid())
 #         # print(worker)
 #         # print(env.action_space.n)
 #         # print(env.actions)
 #         # print(env.mission)
 #         # print(env.observation_space)
 #         # img = env.get_frame()
 #         # plt.imshow(img)
 #         # plt.show()
 class MyCallbacks(DefaultCallbacks):
    def on_episode_start(self, *, worker: RolloutWorker, base_env: BaseEnv, policies: Dict[PolicyID, Policy], episode: Episode | EpisodeV2, env_index: int | None = None, **kwargs) -> None:
        # print(F"Epsiode started Environment: {base_env.get_sub_environments()}")
        env = base_env.get_sub_environments()[0]
        episode.user_data["count"] = 0
        # print("On episode start print")
        # print(env.printGrid())
        # print(worker)
        # print(env.action_space.n)
        # print(env.actions)
        # print(env.mission)
        # print(env.observation_space)
        # img = env.get_frame()
        # plt.imshow(img)
        # plt.show()
 #     def on_episode_step(self, *, worker: RolloutWorker, base_env: BaseEnv, policies: Dict[PolicyID, Policy] | None = None, episode: Episode | EpisodeV2, env_index: int | None = None, **kwargs) -> None:
 #          episode.user_data["count"] = episode.user_data["count"] + 1
 #          env = base_env.get_sub_environments()[0]
 #         # print(env.printGrid())
    def on_episode_step(self, *, worker: RolloutWorker, base_env: BaseEnv, policies: Dict[PolicyID, Policy] | None = None, episode: Episode | EpisodeV2, env_index: int | None = None, **kwargs) -> None:
         episode.user_data["count"] = episode.user_data["count"] + 1
         env = base_env.get_sub_environments()[0]
        # print(env.printGrid())
 #     def on_episode_end(self, *, worker: RolloutWorker, base_env: BaseEnv, policies: Dict[PolicyID, Policy], episode: Episode | EpisodeV2 | Exception, env_index: int | None = None, **kwargs) -> None:
 #         # print(F"Epsiode end Environment: {base_env.get_sub_environments()}")
 #         env = base_env.get_sub_environments()[0]
 #         #print("On episode end print")
 #         #print(env.printGrid())
    def on_episode_end(self, *, worker: RolloutWorker, base_env: BaseEnv, policies: Dict[PolicyID, Policy], episode: Episode | EpisodeV2 | Exception, env_index: int | None = None, **kwargs) -> None:
        # print(F"Epsiode end Environment: {base_env.get_sub_environments()}")
        env = base_env.get_sub_environments()[0]
        #print("On episode end print")
        #print(env.printGrid())
@ -83,7 +83,7 @@ def shielding_env_creater(config):
 def register_minigrid_shielding_env(args):
    env_name = "mini-grid"
    env_name = "mini-grid-shielding"
    register_env(env_name, shielding_env_creater)
    ModelCatalog.register_custom_model(
@ -98,25 +98,21 @@ def ppo(args):
    config = (PPOConfig()
        .rollouts(num_rollout_workers=args.workers)
        .resources(num_gpus=0)
        .environment(env="mini-grid", env_config={"name": args.env, "args": args})
        .environment(env="mini-grid-shielding", env_config={"name": args.env, "args": args, "shielding": args.shielding is ShieldingConfig.Enabled or args.shielding is ShieldingConfig.Training})
        .framework("torch")
        #.callbacks(MyCallbacks)
        .callbacks(MyCallbacks)
        .rl_module(_enable_rl_module_api = False)
        .debugging(logger_config={
            "type": TBXLogger, 
            "logdir": create_log_dir(args)
        })
        .training(_enable_learner_api=False ,model={
            "custom_model": "shielding_model",
            "custom_model_config" : {"no_masking": args.no_masking}            
            "custom_model": "shielding_model"
        }))
    algo =(
    algo =(   
        config.build()
    )
    algo.eva
    )    
    for i in range(args.iterations):
        result = algo.train()
@ -134,7 +130,7 @@ def dqn(args):
    config = DQNConfig()
    config = config.resources(num_gpus=0)
    config = config.rollouts(num_rollout_workers=args.workers)
    config = config.environment(env="mini-grid", env_config={"name": args.env, "args": args })
    config = config.environment(env="mini-grid-shielding", env_config={"name": args.env, "args": args })
    config = config.framework("torch")
    #config = config.callbacks(MyCallbacks)
    config = config.rl_module(_enable_rl_module_api = False)
@ -143,8 +139,7 @@ def dqn(args):
            "logdir": create_log_dir(args)
        })
    config = config.training(hiddens=[], dueling=False, model={    
            "custom_model": "shielding_model",
            "custom_model_config" : {"no_masking": args.no_masking}
            "custom_model": "shielding_model"
    })
    algo = (
--- a/examples/shields/rl/14_train_eval.py
+++ b/examples/shields/rl/14_train_eval.py
@ -0,0 +1,114 @@
 import gymnasium as gym
 import minigrid
 # import numpy as np
 # import ray
 from ray.tune import register_env
 from ray.rllib.algorithms.ppo import PPOConfig
 from ray.rllib.algorithms.dqn.dqn import DQNConfig
 # from ray.rllib.algorithms.callbacks import DefaultCallbacks
 from ray.tune.logger import pretty_print
 from ray.rllib.models import ModelCatalog
 from TorchActionMaskModel import TorchActionMaskModel
 from Wrappers import OneHotShieldingWrapper, MiniGridShieldingWrapper
 from helpers import parse_arguments, create_log_dir, ShieldingConfig
 from ShieldHandlers import MiniGridShieldHandler
 import matplotlib.pyplot as plt
 from ray.tune.logger import TBXLogger   
 def shielding_env_creater(config):
    name = config.get("name", "MiniGrid-LavaCrossingS9N1-v0")
    framestack = config.get("framestack", 4)
    args = config.get("args", None)
    args.grid_path = F"{args.grid_path}_{config.worker_index}.txt"
    args.prism_path = F"{args.prism_path}_{config.worker_index}.prism"
    shielding = config.get("shielding", False)
    # if shielding:
    #     assert(False)
    shield_creator = MiniGridShieldHandler(args.grid_path, args.grid_to_prism_binary_path, args.prism_path, args.formula)
    env = gym.make(name)
    env = MiniGridShieldingWrapper(env, shield_creator=shield_creator, mask_actions=shielding)
    env = OneHotShieldingWrapper(env,
                        config.vector_index if hasattr(config, "vector_index") else 0,
                        framestack=framestack
                        )
    return env
 def register_minigrid_shielding_env(args):
    env_name = "mini-grid-shielding"
    register_env(env_name, shielding_env_creater)
    ModelCatalog.register_custom_model(
        "shielding_model", 
        TorchActionMaskModel
    )
 def ppo(args):
    register_minigrid_shielding_env(args)
    config = (PPOConfig()
        .rollouts(num_rollout_workers=args.workers)
        .resources(num_gpus=0)
        .environment( env="mini-grid-shielding",
                      env_config={"name": args.env, "args": args, "shielding": args.shielding is ShieldingConfig.Enabled or args.shielding is ShieldingConfig.Training})
        .framework("torch")
        .evaluation(evaluation_config={ "evaluation_interval": 1,
                                        "evaluation_parallel_to_training": False,
                                        "env": "mini-grid-shielding", 
                                        "env_config": {"name": args.env, "args": args, "shielding": args.shielding is ShieldingConfig.Enabled or args.shielding is ShieldingConfig.Evaluation}})
        #.callbacks(MyCallbacks)
        .rl_module(_enable_rl_module_api = False)
        .debugging(logger_config={
            "type": TBXLogger, 
            "logdir": create_log_dir(args)
        })
        .training(_enable_learner_api=False ,model={
            "custom_model": "shielding_model"      
        }))
    algo =(
        config.build()
    )
    iterations = args.iterations
    for i in range(iterations):
        algo.train()
        if i % 5 == 0:
            algo.save()
    for i in range(iterations):
        eval_result = algo.evaluate()
        print(pretty_print(eval_result))
 def main():
    import argparse
    args = parse_arguments(argparse)
    ppo(args)
 if __name__ == '__main__':
    main()
--- a/examples/shields/rl/TorchActionMaskModel.py
+++ b/examples/shields/rl/TorchActionMaskModel.py
@ -38,9 +38,6 @@ class TorchActionMaskModel(TorchModelV2, nn.Module):
            name + "_internal",
        )
        self.no_masking = False
        if "no_masking" in model_config["custom_model_config"]:
            self.no_masking = model_config["custom_model_config"]["no_masking"]
    def forward(self, input_dict, state, seq_lens):
        # Extract the available actions tensor from the observation.
@ -48,10 +45,6 @@ class TorchActionMaskModel(TorchModelV2, nn.Module):
        logits, _ = self.internal_model({"obs": input_dict["obs"]["data"]})
        action_mask = input_dict["obs"]["action_mask"]
        # If action masking is disabled, directly return unmasked logits
        if self.no_masking:
            return logits, state
        inf_mask = torch.clamp(torch.log(action_mask), min=FLOAT_MIN)
        masked_logits = logits + inf_mask
--- a/examples/shields/rl/Wrappers.py
+++ b/examples/shields/rl/Wrappers.py
@ -82,7 +82,7 @@ class OneHotShieldingWrapper(gym.core.ObservationWrapper):
 class MiniGridShieldingWrapper(gym.core.Wrapper):
    def __init__(self, env, shield_creator : ShieldHandler, create_shield_at_reset=True):
    def __init__(self, env, shield_creator : ShieldHandler, create_shield_at_reset=True, mask_actions=True):
        super(MiniGridShieldingWrapper, self).__init__(env)
        self.max_available_actions = env.action_space.n
        self.observation_space = Dict(
@ -94,8 +94,12 @@ class MiniGridShieldingWrapper(gym.core.Wrapper):
        self.shield_creator = shield_creator
        self.create_shield_at_reset = create_shield_at_reset
        self.shield = shield_creator.create_shield(env=self.env)
        self.mask_actions = mask_actions
    def create_action_mask(self):
        if not self.mask_actions:
            return np.array([1.0] * self.max_available_actions, dtype=np.int8)
        coordinates = self.env.agent_pos
        view_direction = self.env.agent_dir
@ -146,7 +150,7 @@ class MiniGridShieldingWrapper(gym.core.Wrapper):
    def reset(self, *, seed=None, options=None):
        obs, infos = self.env.reset(seed=seed, options=options)
        if self.create_shield_at_reset:
        if self.create_shield_at_reset and self.mask_actions:
            self.shield = self.shield_creator.create_shield(env=self.env)
        self.keys = extract_keys(self.env)
--- a/examples/shields/rl/helpers.py
+++ b/examples/shields/rl/helpers.py
@ -2,6 +2,9 @@ import minigrid
 from minigrid.core.actions import Actions
 from datetime import datetime
 from enum import Enum
 import os
 import stormpy
 import stormpy.core
@ -13,8 +16,16 @@ import stormpy.logic
 import stormpy.examples
 import stormpy.examples.files
 class ShieldingConfig(Enum):
    Training = 'training'
    Evaluation = 'evaluation'
    Disabled = 'none'
    Enabled = 'full'
    def __str__(self) -> str:
        return self.value
 def extract_keys(env):
    keys = []
    #print(env.grid)
@ -28,7 +39,7 @@ def extract_keys(env):
    return keys
 def create_log_dir(args):
    return F"{args.log_dir}{datetime.now()}-{args.algorithm}-masking:{not args.no_masking}-env:{args.env}"
    return F"{args.log_dir}{datetime.now()}-{args.algorithm}-shielding:{args.shielding}-env:{args.env}"
 def get_action_index_mapping(actions):
@ -77,12 +88,12 @@ def parse_arguments(argparse):
    parser.add_argument("--grid_to_prism_binary_path", default="./main")
    parser.add_argument("--grid_path", default="grid")
    parser.add_argument("--prism_path", default="grid")
    parser.add_argument("--no_masking", default=False)
    parser.add_argument("--algorithm", default="ppo", choices=["ppo", "dqn"])
    parser.add_argument("--log_dir", default="../log_results/")
    parser.add_argument("--iterations", type=int, default=30 )
    parser.add_argument("--formula", default="Pmax=? [G !\"AgentIsInLavaAndNotDone\"]")  # formula_str = "Pmax=? [G ! \"AgentIsInGoalAndNotDone\"]"
    parser.add_argument("--workers", type=int, default=1)
    parser.add_argument("--shielding", type=ShieldingConfig, choices=list(ShieldingConfig), default=ShieldingConfig.Enabled)
    args = parser.parse_args()