changed iteration handling

2 years ago · ae94b57876
2 changed files with 15 additions and 13 deletions
--- a/examples/shields/rl/11_minigridrl.py
+++ b/examples/shields/rl/11_minigridrl.py
@ -63,6 +63,7 @@ def register_minigrid_shielding_env(args):
 def ppo(args):
    train_batch_size = 4000
    register_minigrid_shielding_env(args)
    config = (PPOConfig()
@ -77,17 +78,17 @@ def ppo(args):
            "logdir": create_log_dir(args)
        })    
        # .exploration(exploration_config={"exploration_fraction": 0.1})
        .training(_enable_learner_api=False ,model={
            "custom_model": "shielding_model"
        }))
        .training(_enable_learner_api=False ,
            model={"custom_model": "shielding_model"},
            train_batch_size=train_batch_size))
    # config.entropy_coeff =  0.05
    algo =(   
        config.build()
    )   
    for i in range(args.evaluations):
    iterations = int((args.steps / train_batch_size)) + 1
    for i in range(iterations):
        result = algo.train()
        print(pretty_print(result))
@ -99,6 +100,7 @@ def ppo(args):
 def dqn(args):
    train_batch_size = 4000
    register_minigrid_shielding_env(args)
@ -113,7 +115,7 @@ def dqn(args):
            "type": TBXLogger, 
            "logdir": create_log_dir(args)
        })
    config = config.training(hiddens=[], dueling=False, model={    
    config = config.training(hiddens=[], dueling=False, train_batch_size=train_batch_size, model={    
            "custom_model": "shielding_model"
    })
@ -121,7 +123,8 @@ def dqn(args):
        config.build()
    )
    for i in range(args.evaluations):
    iterations = int((args.steps / train_batch_size)) + 1
    for i in range(iterations):
        result = algo.train()
        print(pretty_print(result))
--- a/examples/shields/rl/14_train_eval.py
+++ b/examples/shields/rl/14_train_eval.py
@ -53,7 +53,7 @@ def register_minigrid_shielding_env(args):
 def ppo(args):
    register_minigrid_shielding_env(args)
    train_batch_size = 4000
    config = (PPOConfig()
        .rollouts(num_rollout_workers=args.workers)
        .resources(num_gpus=0)
@ -74,18 +74,17 @@ def ppo(args):
        })
        .training(_enable_learner_api=False ,model={
            "custom_model": "shielding_model"      
        }))
        }, train_batch_size=train_batch_size))
    algo =(
        config.build()
    )
    evaluations = args.evaluations
    iterations = int((args.steps / train_batch_size)) + 1
    for i in range(evaluations):
    for i in range(iterations):
        algo.train()
        if i % 5 == 0: