added dqn handling skeleton

3 years ago · e42becef88
4 changed files with 92 additions and 79 deletions
--- a/examples/shields/rl/11_minigridrl.py
+++ b/examples/shields/rl/11_minigridrl.py
@ -25,6 +25,7 @@ import numpy as np
 import ray
 from ray.tune import register_env
 from ray.rllib.algorithms.ppo import PPOConfig
+from ray.rllib.algorithms.dqn.dqn import DQNConfig
 from ray.rllib.utils.test_utils import check_learning_achieved, framework_iterator
 from ray import tune, air
 from ray.rllib.algorithms.callbacks import DefaultCallbacks
@ -37,7 +38,7 @@ from ray.rllib.utils.torch_utils import FLOAT_MIN
 from ray.rllib.models.preprocessors import get_preprocessor
 from MaskEnvironments import ParametricActionsMiniGridEnv
 from MaskModels import TorchActionMaskModel
-from Wrapper import OneHotWrapper, MiniGridEnvWrapper, ImgObsWrapper
+from Wrapper import OneHotWrapper, MiniGridEnvWrapper

 import matplotlib.pyplot as plt

@ -62,7 +63,7 @@ class MyCallbacks(DefaultCallbacks):
    def on_episode_step(self, *, worker: RolloutWorker, base_env: BaseEnv, policies: Dict[PolicyID, Policy] | None = None, episode: Episode | EpisodeV2, env_index: int | None = None, **kwargs) -> None:
         episode.user_data["count"] = episode.user_data["count"] + 1
         env = base_env.get_sub_environments()[0]
-         print(env.env.env.printGrid())
+         #print(env.env.env.printGrid())
    
    def on_episode_end(self, *, worker: RolloutWorker, base_env: BaseEnv, policies: Dict[PolicyID, Policy], episode: Episode | EpisodeV2 | Exception, env_index: int | None = None, **kwargs) -> None:
        # print(F"Epsiode end Environment: {base_env.get_sub_environments()}")
@ -83,6 +84,7 @@ def parse_arguments(argparse):
    parser.add_argument("--grid_path", default="Grid.txt")
    parser.add_argument("--prism_path", default="Grid.PRISM")
    parser.add_argument("--no_masking", default=False)
+    parser.add_argument("--algorithm", default="ppo", choices=["ppo", "dqn"])
    
    args = parser.parse_args()
    
@ -108,13 +110,13 @@ def env_creater_custom(config):
                        framestack=framestack
                        )
    
-    obs = env.observation_space.sample()
-    obs2, infos = env.reset(seed=None, options={})
+    # obs = env.observation_space.sample()
+    # obs2, infos = env.reset(seed=None, options={})
    
-    print(F"Obs is {obs} before reset. After reset: {obs2}")
+    # print(F"Obs is {obs} before reset. After reset: {obs2}")
    # env = minigrid.wrappers.RGBImgPartialObsWrapper(env)
    
-    print(F"Created Custom Minigrid Environment is {env}")
+    # print(F"Created Custom Minigrid Environment is {env}")

    return env

@ -194,12 +196,16 @@ def create_environment(args):
    return env


-def main():
-    args = parse_arguments(argparse)
+def register_custom_minigrid_env():
+    env_name = "mini-grid"
+    register_env(env_name, env_creater_custom)
+    ModelCatalog.register_custom_model(
+        "pa_model", 
+        TorchActionMaskModel
+    )

+def create_shield_dict(args):
    env = create_environment(args)
-    ray.init(num_cpus=3)
-
    # print(env.pprint_grid())
    # print(env.printGrid(init=False))
    
@ -215,19 +221,21 @@ def main():
    #     choices = shield.get_choice(state_id)
    #     print(F"Allowed choices in state {state_id}, are {choices.choice_map} ")
    
-    env_name = "mini-grid"
-    register_env(env_name, env_creater_custom)
-    ModelCatalog.register_custom_model(
-        "pa_model", 
-        TorchActionMaskModel
-    )
+    return shield_dict
+
+def ppo(args):
+    
+    ray.init(num_cpus=3)
+
+    
+    register_custom_minigrid_env()
+    shield_dict = create_shield_dict(args)
    
    config = (PPOConfig()
        .rollouts(num_rollout_workers=1)
        .resources(num_gpus=0)
        .environment(env="mini-grid", env_config={"shield": shield_dict })
        .framework("torch")       
-        .experimental(_disable_preprocessor_api=False)
        .callbacks(MyCallbacks)
        .rl_module(_enable_rl_module_api = False)
        .training(_enable_learner_api=False ,model={
@ -256,9 +264,47 @@ def main():
            checkpoint_dir = algo.save()
            print(f"Checkpoint saved in directory {checkpoint_dir}")
            
+    ray.shutdown()
+
+
+def dqn(args):
+    config = DQNConfig()
+    register_custom_minigrid_env()
+    shield_dict = create_shield_dict(args)
+    replay_config = config.replay_buffer_config.update(
+        {
+            "capacity": 60000,
+            "prioritized_replay_alpha": 0.5,
+            "prioritized_replay_beta": 0.5,
+            "prioritized_replay_eps": 3e-6,
+        }
+    )
+    
+    config = config.training(replay_buffer_config=replay_config, model={    
+            "custom_model": "pa_model",
+            "custom_model_config" : {"shield": shield_dict, "no_masking": args.no_masking}
+    })
+    config = config.resources(num_gpus=0)
+    config = config.rollouts(num_rollout_workers=1)
+    config = config.framework("torch")
+    config = config.callbacks(MyCallbacks)
+    config = config.rl_module(_enable_rl_module_api = False)
+    
+    config = config.environment(env="mini-grid", env_config={"shield": shield_dict })
+    
+
+
+def main():
+    args = parse_arguments(argparse)
+
+    if args.algorithm == "ppo":
+        ppo(args)
+    elif args.algorithm == "dqn":
+        dqn(args)
+
+
   

-    ray.shutdown()

 if __name__ == '__main__':
    main()
--- a/examples/shields/rl/MaskEnvironments.py
+++ b/examples/shields/rl/MaskEnvironments.py
@ -56,7 +56,7 @@ class ParametricActionsMiniGridEnv(gym.Env):
        return obs, infos
        return {
            "action_mask": self.action_mask,
-            "avail_actions": self.action_assignments,
+            "avail_action": self.action_assignments,
            "cart": obs,
        }, infos

@ -83,7 +83,7 @@ class ParametricActionsMiniGridEnv(gym.Env):
        return orig_obs, rew, done, truncated, info
        obs = {
            "action_mask": self.action_mask,
-            "avail_actions": self.action_assignments,
+            "action_mask": self.action_assignments,
            "cart": orig_obs,
        }
        return obs, rew, done, truncated, info
--- a/examples/shields/rl/MaskModels.py
+++ b/examples/shields/rl/MaskModels.py
@ -25,10 +25,10 @@ class TorchActionMaskModel(TorchModelV2, nn.Module):
    ):
        orig_space = getattr(obs_space, "original_space", obs_space)
        custom_config = model_config['custom_model_config']
-        print(F"Original Space is: {orig_space}")
+       # print(F"Original Space is: {orig_space}")
        #print(model_config)
-        print(F"Observation space in model: {obs_space}")
-        print(F"Provided action space in model {action_space}")
+        #print(F"Observation space in model: {obs_space}")
+        #print(F"Provided action space in model {action_space}")
        
        TorchModelV2.__init__(
            self, obs_space, action_space, num_outputs, model_config, name, **kwargs
@ -65,7 +65,7 @@ class TorchActionMaskModel(TorchModelV2, nn.Module):

      #  print(F"Caluclated Logits {logits} with size {logits.size()} Count: {self.count}")

-        action_mask = input_dict["obs"]["avail_actions"]
+        action_mask = input_dict["obs"]["action_mask"]
        #print(F"Action mask is {action_mask} with dimension {action_mask.size()}")

        # If action masking is disabled, directly return unmasked logits
@ -77,7 +77,7 @@ class TorchActionMaskModel(TorchModelV2, nn.Module):
        inf_mask = torch.clamp(torch.log(action_mask), min=FLOAT_MIN)
        masked_logits = logits + inf_mask

-        print(F"Infinity mask {inf_mask}, Masked logits {masked_logits}")
+       # print(F"Infinity mask {inf_mask}, Masked logits {masked_logits}")

        # # Return masked logits.
        return masked_logits, state
--- a/examples/shields/rl/Wrapper.py
+++ b/examples/shields/rl/Wrapper.py
@ -26,12 +26,12 @@ class OneHotWrapper(gym.core.ObservationWrapper):
        self.observation_space = Dict(
            {
                "data": gym.spaces.Box(0.0, 1.0, shape=(self.single_frame_dim * self.framestack,), dtype=np.float32),
-                "avail_actions": gym.spaces.Box(0, 10, shape=(env.action_space.n,), dtype=int),
+                "action_mask": gym.spaces.Box(0, 10, shape=(env.action_space.n,), dtype=int),
            }
            ) 
        
        
-        print(F"Set obersvation space to {self.observation_space}")
+       # print(F"Set obersvation space to {self.observation_space}")
        

    def observation(self, obs):
@ -77,7 +77,7 @@ class OneHotWrapper(gym.core.ObservationWrapper):
        self.frame_buffer.append(single_frame)
        
        #obs["one-hot"] = np.concatenate(self.frame_buffer)
-        tmp = {"data": np.concatenate(self.frame_buffer), "avail_actions": obs["avail_actions"] }
+        tmp = {"data": np.concatenate(self.frame_buffer), "action_mask": obs["action_mask"] }
        return tmp#np.concatenate(self.frame_buffer)


@ -88,7 +88,7 @@ class MiniGridEnvWrapper(gym.core.Wrapper):
        self.observation_space = Dict(
            {
                "data": env.observation_space.spaces["image"],
-                "avail_actions" : Box(0, 10, shape=(self.max_available_actions,), dtype=np.int8),
+                "action_mask" : Box(0, 10, shape=(self.max_available_actions,), dtype=np.int8),
            }
        )
        
@ -98,7 +98,7 @@ class MiniGridEnvWrapper(gym.core.Wrapper):
    def create_action_mask(self):
        coordinates = self.env.agent_pos
        view_direction = self.env.agent_dir
-        print(F"Agent pos is {self.env.agent_pos} and direction {self.env.agent_dir} ")
+        #print(F"Agent pos is {self.env.agent_pos} and direction {self.env.agent_dir} ")
        cur_pos_str = f"[!AgentDone\t& xAgent={coordinates[0]}\t& yAgent={coordinates[1]}\t& viewAgent={view_direction}]"
        
        allowed_actions = []
@ -109,73 +109,40 @@ class MiniGridEnvWrapper(gym.core.Wrapper):
        # else set everything to one
        mask = np.array([0.0] * self.max_available_actions, dtype=np.int8)
        
-        # if cur_pos_str in self.shield:
-        #     allowed_actions = self.shield[cur_pos_str]
-        #     for allowed_action in allowed_actions:
-        #         index = allowed_action[0]
-        #         mask[index] = 1.0
-        # else:
-        #     for index in len(mask):
-        #         mask[index] = 1.0
+        if cur_pos_str in self.shield:
+             allowed_actions = self.shield[cur_pos_str]
+             for allowed_action in allowed_actions:
+                 index = allowed_action[0]
+                 mask[index] = 1.0
+        else:
+            for index, x in enumerate(mask):
+                mask[index] = 1.0
            
            
-        print(F"Allowed actions for position {coordinates} and view {view_direction} are {allowed_actions}")
-        mask[0] = 1.0
+        #print(F"Action Mask for position {coordinates} and view {view_direction} is {mask}")
+    
        return mask
    
    def reset(self, *, seed=None, options=None):
        obs, infos = self.env.reset()
+        mask = self.create_action_mask()
        return {
            "data": obs["image"],
-            "avail_actions": np.array([0.0] * self.max_available_actions, dtype=np.int8)
+            "action_mask": mask
        }, infos
    
    def step(self, action):
-        print(F"Performed action in step: {action}")
+      #  print(F"Performed action in step: {action}")
        orig_obs, rew, done, truncated, info = self.env.step(action)
      
-        actions = self.create_action_mask()
+        mask = self.create_action_mask()
        #print(F"Original observation is {orig_obs}")
        obs = {
            "data": orig_obs["image"],
-            "avail_actions": actions,
+            "action_mask": mask,
        }
        
        #print(F"Info is {info}")
        return obs, rew, done, truncated, info
    
    
-
-
-class ImgObsWrapper(gym.core.ObservationWrapper):
-    """
-    Use the image as the only observation output, no language/mission.
-
-    Example:
-        >>> import gymnasium as gym
-        >>> from minigrid.wrappers import ImgObsWrapper
-        >>> env = gym.make("MiniGrid-Empty-5x5-v0")
-        >>> obs, _ = env.reset()
-        >>> obs.keys()
-        dict_keys(['image', 'direction', 'mission'])
-        >>> env = ImgObsWrapper(env)
-        >>> obs, _ = env.reset()
-        >>> obs.shape
-        (7, 7, 3)
-    """
-
-    def __init__(self, env):
-        """A wrapper that makes image the only observation.
-
-        Args:
-            env: The environment to apply the wrapper
-        """
-        super().__init__(env)
-        self.observation_space = env.observation_space.spaces["image"]
-        print(F"Set obersvation space to {self.observation_space}")
-
-    def observation(self, obs):
-        #print(F"obs in img obs wrapper {obs}")
-        tmp = {"data": obs["image"], "Test": obs["Test"]}
-        
-        return tmp