GSW_AI_LAB/notebooks/environments/Minigrid/minigrid/manual_control.py


								#!/usr/bin/env python3


								from __future__ import annotations

								import re

								from tqdm import tqdm


								import gymnasium as gym

								import numpy as np

								import pygame

								from gymnasium import Env


								from minigrid.core.actions import Actions

								from minigrid.core.state import to_state

								from minigrid.minigrid_env import MiniGridEnv

								from minigrid.wrappers import ImgObsWrapper, RGBImgPartialObsWrapper


								def actionsToMiniGrid(actions):

								    mask = [0] * 7

								    for action in actions:

								        if "turn_left" in action:

								            mask[0] = 1

								        elif "turn_right" in action:

								            mask[1] = 1

								        elif "move" in action:

								            mask[2] = 1

								        elif "pickup" in action:

								            mask[3] = 1

								        elif "drop" in action:

								            mask[4] = 1

								        elif "toggle" in action:

								            mask[5] = 1

								        elif "done" in action:

								            mask[6] = 1

								    return mask


								class Shield:

								    def __init__(self, shieldfile="current.shield"):

								        self.shieldfile = shieldfile

								        self.parse()


								    def parse(self):

								        self.shield = dict()

								        self.shield_raw = dict()

								        with open(self.shieldfile, "r") as shield:

								            shield = shield.readlines()

								            for line in tqdm(shield[3:-2]):

								                state_valuation = line[line.find("[")+1:line.find("]")]

								                actions = line[line.find("]")+1:]

								                ints = dict(re.findall(r'([a-zA-Z][_a-zA-Z0-9]+)=(-?[a-zA-Z0-9]+)', state_valuation))

								                booleans = re.findall(r'(\!?)([a-zA-Z][_a-zA-Z0-9]+)[\s\t]+', state_valuation)

								                booleans = {b[1]: False if b[0] == "!" else True for b in booleans}

								                actions = re.findall(r'{([a-zA-Z][_a-zA-Z0-9]+)}', actions)

								                if int(ints.get("clock", 0)) != 0:

								                    continue

								                if int(ints.get("previousActionAgent", 3)) != 3:

								                    continue

								                self.shield[to_state(ints, booleans)] = actionsToMiniGrid(actions)

								                self.shield_raw[to_state(ints, booleans)] = line[line.find("]")+1:]


								    def get_action_mask(self, state):

								        print(state)

								        try:

								            return self.shield[state]

								        except:

								            print("Unsafe State")

								            return [0.0] * 7


								    def get_action_mask_raw(self, state):

								        try:

								            return self.shield_raw[state]

								        except:

								            print("Not listed")


								class ManualControl:

								    def __init__(

								        self,

								        env: Env,

								        seed=None,

								        random_agent=False,

								        shieldfile=None,

								        enforce=False

								    ) -> None:

								        self.env = env

								        self.seed = seed

								        self.closed = False

								        self.random_agent = random_agent

								        if shieldfile is not None:

								            self.shield = Shield(shieldfile)

								        self.enforce= enforce

								        self.cumulative_reward = 0


								    def start(self):

								        """Start the window display with blocking event loop"""

								        self.reset(self.seed)


								        while not self.closed:

								            if self.random_agent:

								                index = np.random.choice(7, 1)[0]

								                action = [Actions.left, Actions.right, Actions.forward, Actions.pickup, Actions.drop, Actions.toggle, Actions.done][index]

								                print(Actions(action), end=" ")

								                if hasattr(self, "shield") and self.enforce:

								                    mask = self.shield.get_action_mask(self.env.get_symbolic_state())

								                    if mask[Actions(action)] == 1.0:

								                        self.step(action)

								                    else:

								                        print("blocked: ", Actions(action), end=" ")

								                else:

								                    self.step(action)

								                print(" ")

								            else:

								                for event in pygame.event.get():

								                    if event.type == pygame.QUIT:

								                        self.env.close()

								                        break

								                    if event.type == pygame.KEYDOWN:

								                        event.key = pygame.key.name(int(event.key))

								                        self.key_handler(event)


								    def step(self, action: Actions):

								        _, reward, terminated, truncated, info = self.env.step(action)

								        self.cumulative_reward += reward

								        print(f"step={self.env.step_count}, reward={reward:.4f}, cumulative_reward={self.cumulative_reward:.4f}")

								        print(info)

								        if hasattr(self, "shield") and self.enforce:

								            symbolic_state = self.env.get_symbolic_state()

								            mask = self.shield.get_action_mask(symbolic_state)

								            print(mask)

								            print(self.shield.get_action_mask_raw(symbolic_state))


								        if terminated:

								            print("terminated!")

								            input("")

								            self.reset(self.seed)

								        elif truncated:

								            print("truncated!")

								            self.reset(self.seed)

								        else:

								            self.env.render()


								    def reset(self, seed=None):

								        self.env.reset(seed=seed)

								        if hasattr(self, "shield") and self.enforce:

								            symbolic_state = self.env.get_symbolic_state()

								            mask = self.shield.get_action_mask(symbolic_state)

								            print(mask)

								            print(self.shield.get_action_mask_raw(symbolic_state))

								        self.cumulative_reward = 0

								        self.env.render()


								    def key_handler(self, event):

								        key: str = event.key

								        print("pressed", key)


								        if key == "escape":

								            self.env.close()

								            return

								        if key == "backspace":

								            self.reset()

								            return

								        if key == "f12":

								            self.take_screenshot()

								            return


								        key_to_action = {

								            "left": Actions.left,

								            "right": Actions.right,

								            "up": Actions.forward,

								            "space": Actions.toggle,

								            "pageup": Actions.pickup,

								            "pagedown": Actions.drop,

								            "tab": Actions.pickup,

								            "left shift": Actions.drop,

								            "enter": Actions.done,

								        }

								        if key in key_to_action.keys():

								            action = key_to_action[key]

								            symbolic_state = self.env.get_symbolic_state()

								            if hasattr(self, "shield") and self.enforce:

								                mask = self.shield.get_action_mask(symbolic_state)

								                print(mask)

								                print(self.shield.get_action_mask_raw(symbolic_state))

								                if mask[Actions(action)] == 1.0:

								                    self.step(action)

								                else:

								                    print(key)

								            elif hasattr(self, "shield") and not self.enforce:

								                mask = self.shield.get_action_mask(symbolic_state)

								                print(mask)

								                print(self.shield.get_action_mask_raw(symbolic_state))

								            else:

								                self.step(action)

								        else:

								            print(key)


								    def take_screenshot(self):

								        import datetime

								        filename = f"{datetime.datetime.now().isoformat()}.png"

								        print(f"Saving a screenshot to '{filename}'")

								        window = self.env.window

								        screenshot = pygame.Surface(window.get_size())

								        screenshot.blit(window, (0,0))

								        pygame.image.save(screenshot, filename)


								if __name__ == "__main__":

								    import argparse


								    parser = argparse.ArgumentParser()

								    parser.add_argument(

								        "--env-id",

								        type=str,

								        help="gym environment to load",

								        choices=gym.envs.registry.keys(),

								        default="MiniGrid-MultiRoom-N6-v0",

								    )

								    parser.add_argument(

								        "--seed",

								        type=int,

								        help="random seed to generate the environment with",

								        default=None,

								    )

								    parser.add_argument(

								        "--tile-size", type=int, help="size at which to render tiles", default=32

								    )

								    parser.add_argument(

								        "--agent-view",

								        action="store_true",

								        help="draw the agent sees (partially observable view)",

								    )

								    parser.add_argument(

								        "--agent-view-size",

								        type=int,

								        default=7,

								        help="set the number of grid spaces visible in agent-view ",

								    )

								    parser.add_argument(

								        "--screen-size",

								        type=int,

								        default="640",

								        help="set the resolution for pygame rendering (width and height)",

								    )

								    parser.add_argument(

								        "--random-agent",

								        action="store_true",

								        help="make the agent move around randomly"

								    )

								    parser.add_argument(

								        "--shield-file",

								        type=str,

								        help="shield file to parse and load",

								    )

								    parser.add_argument(

								        "--no-enforcement",

								        action="store_true",

								        help="do not enforce, but inform the user abouth shield violations"

								    )


								    args = parser.parse_args()


								    env: MiniGridEnv = gym.make(

								        args.env_id,

								        tile_size=args.tile_size,

								        render_mode="human",

								        agent_pov=args.agent_view,

								        agent_view_size=args.agent_view_size,

								        screen_size=args.screen_size,

								    )


								    if args.agent_view:

								        print("Using agent view")

								        env = RGBImgPartialObsWrapper(env, args.tile_size)

								        env = ImgObsWrapper(env)

								    #env.disable_random_start()

								    print(env.printGrid(init=True))

								    manual_control = ManualControl(env, seed=args.seed, random_agent=args.random_agent, shieldfile=args.shield_file, enforce=args.no_enforcement == False)

								    manual_control.start()